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文艺 复兴 以 后 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西 
方 国家 在 自然 科学 的 各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传 
统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 替 出 、 独 领 风 又 。 在 商业 
化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 学 科 中 
的 许多 泰山 北斗 同时 里 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 
著作 ， 不 仅 壁 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 
范 ， 又 目 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 








近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 
对 专业 人 才 的 需求 日 益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 明 ， 
也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 在 我 国信 息 
技术 发 展 时 间 较 短 的 现状 下 ， 糯 国 等 发 达 国家 在 其 计算 机 科学 发 展 的 几 
十 年 间 积 诈 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 
国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作 
用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 











机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 
年 开始 ， 我 们 就 将 工作 重点 放 在 了 遵 选 、 移 译 国外 优秀 教材 上 。 经 过 多 
年 的 不 懈 努 力 ， 我 们 与 Pearson,McGraw-Hill,Elsevier,MIT,John Wiley & 
Sons,Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 他 们 现 有 


的 数 百 种 教材 中 杜 选 出 Andrew S.Tanenbaum,Bjarne Stroustrup,Brain 
W.Kernighan,Dennis Ritchie,Jim Gray,Afred V.Aho,John E.Hopcroft,Jeffrey 
D.Ullman,Abraham Silberschatz,William Stallings, Donald E.Knuth,John 
L.Hennessy,Larry L.Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科 
学 丛书” 为 鼠 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 
也 正体 现 了 这 套 从 书 的 品位 和 格调 。 


“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 囊 助 ， 国 内 
的 专家 不 仅 提供 了 中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 
工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 的 还 专程 为 其 
书 的 中 译本 作 序 。 运 今 ,，“ 计 算 机 科学 丛书” 已 经 出 版 了 近 两 百 个 品种 ， 
这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 
参考 书籍 。 其 影印 版 < 经典 原 版 书库 ?作为 姊妹 篇 也 家 越 来 越 多 实施 双语 
教学 的 学 校 所 采用 。 

















权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编 
辑 ， 这 些 因素 使 我 们 的 图 书 有 了 质量 的 保证 。 随 独 计算 机 科学 与 技术 专 
业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教 
材 的 需求 和 应 用 都 将 步 入 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反 
馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 半 公 司 欢 迎 老 师 和 
读者 对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 
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数据 挖掘 正在 改变 着 企业 和 其 他 大 型 组 织 与 客户 的 互动 方式 ， 同 时 
也 改变 着 它们 管理 复杂 过 程 的 方式 。 大 量 的 数据 正在 很 好 地 用 于 预测 客 
尸 行 为 和 结果 。 在 软件 方面 ，R 以 其 强大 的 功能 和 诱 人 的 价格 免费) 
正在 改变 着 定量 分 析 的 “生态 系统 ”。 














本 书 的 目的 是 引领 读者 迅速 地 进入 这 两 个 世界 。 本 书 以 实际 案例 的 
方式 介绍 数据 挖 气 和 R 软 件 ， 这 样 读者 就 可 以 在 真实 情境 中 进行 学 习 ， 
而 不 会 迷失 在 统计 理论 的 细节 讨论 或 者 计算 机 科学 的 基础 概念 中 。 本 书 
中 用 到 的 工具 全 部 是 免费 的 : MYSQL 数据 库 《〈 用 于 数据 库 操 作 ) 和 R 软 
件 《〈“ 用 于 分 析 ) 。 因 此 ， 本 书 教 给 你 的 是 如 何 动手 的 知识 。 通 过 学 习 本 
书 ， 你 将 体验 到 数据 挖掘 和 R 的 强大 功能 。 如 果 你 能 安装 这 些 工 具 ， 并 
通过 应 用 这 些 工 具 来 详细 地 学 习 书 中 的 案例 研究 ， 你 将 收获 颇 丰 。 本 书 
逐步 地 通过 案例 研究 来 介绍 R 的 概念 ， 如 有 果 你 还 不 熟悉 R 或 者 MySQL， 














本 书 的 原作 者 Lufs Torgo， 根 据 他 在 葡 欧 牙 波 尔 图 大 学 丰 宇 的 教学 
经 验 、 在 其 他 国家 讲授 数据 挖掘 课程 的 经 验 ， 以 及 聚集 了 世界 各 地 专业 
人 十 的 Statistics.com 在 线 课程 中 的 教学 经 验 ， 精 心地 写作 了 本 书 。 


Tt 





2012 年 12 月 17 日 


Statistics.com 在 线 课 程 网 站 总 裁 Peter Bruce 


中 文 版 序 














目前 ， 数 据 挖掘 和 R 是 学 术 界 及 工业 界 中 的 两 个 关键 技术 。 丰 是 的 
传感器 机 制 使 得 目 动 收集 数据 成 为 可 能 后 ， 产 生 了 非常 大 的 数据 集 ， 这 
需要 自动 化 的 机 制 来 将 这 些 数据 转化 为 有 用 的 信息 ， 以 供 决 策 者 使 用 和 
参考 。R 是 一 个 开发 这 些 自动 化 机 制 的 很 好 选择 。R 提 供 的 大 量 算 法 和 
方法 ， 以 及 它 的 目 由 和 开放 源码 特性 ， 使 得 R 成 为 数据 挖掘 的 最 佳 选择 
之 一 。 本 书 的 目的 是 辐 读 者 介绍 数据 挖 据 和 R 的 知识 。 本 书 的 写作 思路 
征 给 读者 介绍 一 系列 有 代表 性 的 研究 案例 ， 通 过 这 些 案例 ， 读 者 不 仅 从 
中 学 到 主流 的 数据 挖掘 方法 ， 同 时 也 可 以 学 习 本 书 所 提供 的 R 代 码 ， 并 
最 终 把 这 些 代码 应 用 到 他 们 自己 的 数据 挖掘 项 目 中 。 





随 着 中 文 版 的 出 版 ， 我 希望 我 能 说 服 更 多 的 人 认识 R 和 数据 挖掘 的 
优势 。 得 知 我 的 书 得 到 世界 各 地 读者 的 关注 ， 对 我 而 言 是 一 项 伟大 的 采 
誉 。 我 相信 本 书 中 文 版 的 发 行将 有 助 于 中 国 的 R 社 区 。 对 所 有 的 中 国 读 
者 ， 我 真 城 地 和 硕 望 ， 在 读 完 本 书后 ， 你 们 发 现 它 不 仅 有 助 于 你 们 的 工 
作 ， 同 时 你 们 将 和 我 自己 一 样 增 加 了 对 数据 挖掘 和 R 的 热情 。 

















Luis Torgo 


2012 年 12 月 16 日 于 和 葡萄牙， 波尔多 


译 者 序 





本 书 是 2011 年 查 普 曼 和 霍 尔 公司 (Chapman & Hall/CRC) 出 版 的 
(Data Mining with R: Learning with Case Studies》 一 书 的 中 文 版 。 英 文 
版 从 出 版 后 就 在 亚马逊 美国 网 站 上 得 到 了 极 高 的 评价 ， 是 2011 年 亚马逊 
网 站 上 数据 挖掘 类 书籍 销量 最 好 的 一 本 。 机 械 工业 出 版 社 以 极 快 的 速度 
引进 这 本 书 的 中 文 版 ， 使 国内 读者 在 原版 出 版 一 年 左右 的 时 间 里 读 到 本 
书 ， 不 得 不 赞扬 他 们 独到 的 眼光 。 本 书 翻译 完稿 的 时 候 (2012 年 10 
H) ， 其 英文 版 的 销量 还 是 排 在 专业 书籍 的 前 列 ， 原 作者 为 本 书 维护 了 
一 个 网 站 ， 读 者 可 以 访问 该 网 站 查看 这 些 信息 。 














本 书 的 作者 Lufs Torgo 是 一 位 数据 挖掘 专家 ， 同 时 也 是 一 位 R 开 发 
者 。 本 书 给 出 了 四 个 数据 挖掘 的 实际 和 案例， 它们 分 别 是 党 类 频率 的 预 
测 、 证 券 趋 势 预测 和 交易 系统 仿真 、 交 易 欺 诈 预 测 ， 以 及 微 阵 列 数据 分 
类 。 这 四 个 采 例 基本 和 窗 盖 了 常见 的 数据 挖掘 技术 ， 从 无 监督 的 数据 挖掘 
技术 、 有 监督 的 数据 挖掘 技术 到 半 监 督 的 数据 挖掘 技术 。 同 时 这 四 个 案 
例 从 数据 量 、 分 析 目 标 和 数据 类 型 方面 引出 了 各 种 各 样 的 挑战 性 问题 ， 
本 书 给 出 了 克服 这 些 挑战 的 方法 和 技巧 。 阅 读本 书 不 需要 具备 R 和 数据 
挖掘 的 基础 知识 。 为 了 便于 读者 阅读 ， 本 书 第 1 章 给 出 了 R 软 件 的 基础 知 
识 〈 安 装 、R 数 据 结构 、R 编 程 、R 的 输入 和 和 输出 等 ) 。 全 书 以 实际 问 
题 、 解 决 方案 和 对 解决 方案 的 讨论 为 主线 来 组 织 内 容 。 读 者 既 可 以 把 本 














书 作为 学 习 如 何 应 用 R 的 一 本 优秀 教材 ， 也 可 以 作为 数据 挖掘 的 工具 
书 。 该 者 可 以 根据 自己 的 需要 参考 书 中 的 某 些 共 体 方 法 ， 找 到 目 己 实际 
问题 的 解决 方案 。 








R 本 号 是 一 天 十 分 优秀 的 统计 分 析 和 数据 挖掘 软件 ， 有 关 R 的 书籍 
和 文档 也 是 相当 多 的 。 但 是 系统 地 讲解 用 R 进 行 数据 挖掘 的 书籍 目前 还 
没有 。 本 书 以 四 个 案例 研究 的 形式 组 织 内 容 ， 脉 络 清晰 ， 并 且 各 章 自 成 
体系 。 读 者 可 以 从 头 逐 章 学 习 ， 也 可 以 根据 自己 的 需要 进行 学 习 。 不 管 
是 R 初 学 者 ， 还 是 熟练 的 R 用 户 都 能 从 书 中 找到 对 上 自己 有 用 的 内 容 。 








本 人 在 2011 年 年 初学 习作 者 Lufs Torgo 在 Statistics.com 上 的 在 线 课 
程 ， 深 感 本 书 的 内 容 极 具 实 用 价值 ， 萌 生 了 把 本 书 翻译 为 中 文 的 念头 。 
2011 年 年 末 ， 恰 着 机 械 工 业 出 版 社 华章 公司 引进 了 本 书 的 版 权 ， 在 王 春 
华 编辑 的 支持 下 ， 我 承担 了 本 书 的 翻译 工作 。 由 于 英文 的 习惯 和 汉语 有 
较 大 的 不 同 ， 对 于 一 些 特别 长 的 句 式 ， 译 者 按照 原文 的 意思 进行 了 分 解 
处 理 。 关 于 书 中 的 术语 ， 译 者 尽量 采用 中 文 已 有 的 对 应 术语 ， 如 果 中 文 
没有 对 应 术语 ， 译 者 尽力 采用 贴切 的 名 称 来 反映 原文 中 的 术语 。 





本 书 的 翻 诺 工作 由 李 潜 成 、 陈 道 轮 和 吴立明 共同 完成 。 另 外 ， 许 金 
玮 、 朱 振兴 、 陈 冰 、 汤 静 文 、 惧 秋 霞 、 张 浪子 等 也 对 本 书 的 部 分 翻译 提 
供 了 帮助 。 在 本 书 的 翻译 过 程 中 ， 原 作者 Torgo 博 士 多 次 束 译 者 提出 的 
问题 进行 耐心 而 细致 的 解答 。 这 里 对 他 的 帮助 表示 由 应 的 谢意 。 另 外 ， 
感谢 美国 统计 教育 学 院 Peter Bruce 为 本 书 中 文 版 写 的 推荐 序 。 由 于 水 平 


所 限 ， 书 中 可 能 会 有 翻译 不 当 之 处 ， 和 希望 读者 多 加 指正 。 


李 洪 成 
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本 书 的 主要 目的 是 同 读者 介绍 如 何 用 R 进 行 数据 挖掘 。R 是 一 个 可 
以 自由 下 载 趾 的 语言 ， 它 提供 统计 计算 和 绘图 环境 ， 其 功能 和 大 量 的 
添加 包 使 它 成 为 一 亚 优 秀 的 、 多 个 已 有 《昂贵 ) 数据 挖掘 工具 的 丛 代 软 
人 





数据 挖掘 的 一 个 关键 问题 是 数据 量 。 典 型 的 数据 挖掘 问题 包括 一 个 
大 的 数据 库 ， 需 要 从 中 提取 有 用 的 信息 。 在 本 书 中 ， 我 们 用 MySQL 作 
为 核心 数据 库 管 理 系统 。 对 多 个 计算 机 平台 ，MySQL 也 是 免费 的 由。 
这 意味 着 ， 我 们 可 以 不 用 付 任 何 费 用 就 可 以 进行 “重要 的 ”数据 挖掘 任 
务 。 同 时 ， 我 们 希望 说 明 解 决 方案 质量 上 并 没有 任何 损失 。 郧 贯 的 工具 
并 不 意味 着 一 定 更 好 ! 只 要 你 愿意 伦 时 间 来 学 习 如 何 应 用 它们 ，R 和 
MySQL 就 是 一 对 很 难 超越 的 工具 。 我 们 认为 这 是 值得 的 ， 和 希望 在 读 完 
本 书 之 后 ， 你 也 相信 这 点 。 




















本 书 的 目的 不 是 介绍 数据 挖掘 的 各 个 方面 。 许 多 已 有 的 书籍 覆盖 了 
数据 挖掘 领域 。 我 们 用 几 个 案例 来 辐 读者 介绍 R 的 数据 挖掘 能 力 。 显 
然 ， 这 几 个 案例 不 能 代表 我 们 在 现实 世界 中 碰 到 的 所 有 数据 挖 气 问题 。 
同时 ， 我 们 给 出 的 解决 方案 也 不 是 最 完全 的 方案 。 我 们 的 目的 是 通过 这 
些 实际 案例 问 读 者 介绍 如 何 用 R 进 行 数 据 挖 据 。 因 此 ， 我 们 案例 分 析 的 
目的 是 展示 用 R 进 行 信息 提 取 的 例子 ， 而 不 是 提供 数据 挖掘 案例 的 完整 




















分 析 报 告 。 它 们 可 以 作为 任何 数据 挖掘 项 目的 可 能 思路 ， 或 者 作为 开 友 
数据 挖掘 项 目 解决 方案 的 基础 。 尽 管 如 此 ， 我 们 尽力 符 试 履 焉 多 方面 的 
问题 ， 展 示 数 据 大 小 、 不 同 数据 类 型 、 分 析 目 标 和 进行 分 析 所 必需 的 工 
具 所 带 来 的 挑战 。 然 而 ， 这 里 的 实践 方式 也 是 有 代价 的 。 实 际 上 ， 作 为 
具体 案例 研 完 的 一 种 形式 ， 为 了 让 读者 在 目 己 的 计算 机 上 执行 我 们 所 描 
述 的 步骤 ， 我 们 也 做 了 某 些 妥协 。 也 就 是 说 ， 我 们 不 能 处 理 太 大 的 问 

题 ， 这 些 问题 要 求 的 计算 机 资源 不 是 每 个 人 都 具备 的 。 尽 管 这 样 ， 我 们 
认为 本 书 涵 兰 的 问题 也 不 算 小 ， 并 对 不 同 的 数据 类 型 和 维度 给 出 了 解决 


方案 。 





这 里 并 不 要 求 读者 具有 R 的 先 验 知识 。 没 有 学 过 R 和 数据 挖掘 的 读 
者 应 该 可 以 学 习 书 中 的 案例 。 书 中 的 各 个 案例 相互 独立 ， 读 者 可 以 从 书 
中 任何 一 个 案例 开始 。 在 第 一 个 简单 案例 中 ， 给 出 了 一 些 基 本 的 R 知 
识 。 这 意味 着 ， 如 果 你 没有 学 过 R， 至 少 应 该 从 第 一 个 案例 开始 学 习 。 
而 且 ， 第 1 章 给 出 了 R 和 MySQL 的 人 简介， 它 可 以 帮助 你 理解 后 面 的 划 
市 。 我 们 也 没有 假设 你 熟悉 数据 挖掘 和 统计 技术 。 在 每 个 案例 的 必要 地 
方 ， 都 对 不 同 的 数据 挖掘 技术 进行 了 介绍 。 本 书 的 目的 不 是 癌 读 者 介绍 
这 些 技术 的 理论 细节 和 全 面 知识 ， 我 们 对 这 些 工 具 的 描述 包括 了 它们 的 
基本 性 质 、 缺 点 和 分 析 目 标 。 如 果 需 要 进一步 了 解 技 术 细 节 ， 可 以 参考 
他 书籍 。 在 某 些 节 的 末尾 ， 我 们 提供 了 “参考 资料 ”， 如 果 需 要 ， 可 以 
参考 它们 。 总 之 ， 本 书 的 读者 应 该 是 数据 分 析 工 具 的 用 户 ， 而 不 是 研究 
人 员 或 者 开发 人 员 。 同 时 ， 我 们 希望 后 者 把 本 书 作 为 进入 R 和 数据 控 














V 





掘 <“ 世界 ?的 一 种 方式 ， 从 而 发 现 本 书 的 用 途 。 


本 书 有 一 个 免费 的 R 代 码 集 ， 可 以 从 本 书 网 站 下 载 趾 。 其 中 含有 案 
例 研究 中 的 所 有 代码 ， 这 可 以 帮助 你 的 实践 学 习 。 我 们 强烈 建议 读者 在 
阅读 本 书 时 安装 R 并 实验 书 中 的 代码 。 而 且 ， 我 们 创建 了 一 个 名 为 
DMwR 的 R 添 加 包 ， 它 包含 本 书 用 到 的 多 个 函数 和 以 R 格 式 保存 的 案例 
数据 集 。 你 应 该 按照 本 书 的 指示 ， 安 装 并 加 载 该 添加 包 《 第 1 章 给 出 了 


细节 ) 。 


1] FAH: http://www.r-project.orge 
[2] FAH: http://www.mysql.com。 
[3] FAH: http://www.liaad.up.pt/~ltorgo/DataMiningWithR/ o 
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第 1 章 ”简介 








R 是 一 种 用 于 统计 计算 的 编程 语言 和 环境 ， 它 与 AT&T 贝 尔 实 验 室 
的 Rick Becker, John Chambers 和 Allan Wilks 开 发 的 S 语 言 很 相似 。 随 着 
操作 系统 的 不 同 ，R 语 言 有 UNIX 版 本 、Windows 版 本 和 Mac 版 本 。R 可 
以 在 不 同体 系 结构 的 计算 机 系统 上 运行 ， 例 如 Intel、PowerPC、Alpha 系 
统 以 及 Sparc 系 统 。R 最 早 由 新 西 兰 奥克兰 大 学 的 Ihaka 和 Gentleman 于 
1996 年 开发 。 现 在 R 的 开发 由 一 个 几 十 人 组 成 的 核心 团队 来 负责 ， 核 心 
团队 的 成 员 来 自 于 世界 各 地 的 不 同 机 构 和 单位 。 由 于 R 的 开源 性 ，R 软 
件 的 开发 采用 社区 合作 的 方式 。R 的 所 有 源 代码 都 可 以 免费 获取 以 便 进 
行 检验 或 者 利用 。 这 样 你 就 可 以 检查 和 测试 你 应 用 的 R 软 件 的 可 靠 性 。 
人 们 对 开源 软件 模式 有 诸多 指责 ， 其 中 最 多 的 是 认为 开源 软件 缺少 支持 
是 其 主要 缺陷 之 一 。 但 是 对 于 R 软 件 ， 该 缺陷 却 不 存在 ! 有 许多 很 好 的 
文档 、 书 籍 和 网 站 提供 了 免费 的 R 资 料 。 另 外 ，R 帮 助 邮件 列表 是 获取 
免费 R 帮 助 信 息 和 建议 的 极 好 来 源 ， 它 甚至 比 付 费 的 帮助 更 好 ! R 有 一 
个 可 搜索 的 邮件 列表 文档 。 在 邮件 列表 中 提问 前 ， 可 以 先 查 找 这 个 可 搜 
索 的 邮件 列表 文档 。〔 也 应 该 这 样 做 ! ) 可 以 在 R 网 站 的 “Mailing 
Lists” (邮件 列表 〉 部 分 得 到 有 关 R 邮 件 列表 的 更 多 信息 。 














数据 挖掘 是 应 用 统计 学 、 机 器 学 习 和 模式 识别 等 学 科 的 知识 ， 从 数 
据 中 发 现 有 用 的 、 有 效 的 、 未 知 的 并 且 可 以 理解 的 信息 的 一 项 技术 。 数 


据 挖 掘 的 一 项 重要 特征 是 数据 的 维度 。 随 独 计 算 机 技术 和 信息 系统 的 广 
泛 应 用 ， 需 要 探索 的 数据 呈 指 数 增长 。 这 给 传统 的 数据 分 析 学 科 带 来 了 
Phe: 必须 考虑 计算 的 效率 、 内 存 资源 的 限制 、 数 据 库 接口 等 。 这 些 使 
得 数据 挖掘 成 为 一 门 高 度 交 叉 的 学 科 ， 它 不 仅 有 传统 数据 分 析 的 任务 ， 
也 有 数据 库 的 工作 ， 高 维 数 据 可 视 化 等 。 





由 于 R 的 所 有 计算 是 在 计算 机 的 内 存 中 进行 的 ， 所 以 R 在 处 理 大 数 
据 集 上 有 限制 。 但 是 这 并 不 意味 着 我 们 不 能 处 理 这 些 问 题 ， 利 用 R 高 度 
灵活 的 数据 库 接口 ， 我 们 可 以 对 大 型 问题 进行 数据 挖掘 。 基 于 开源 软件 
的 信念 ， 我 们 可 以 应 用 优秀 的 MySQL 数 据 库 管 理 系统 1 。MySQL 可 以 
应 用 在 大 多 数 的 计算 机 平台 和 操作 系统 上 。 而 且 ，R 的 添加 包 
RMySQL (James and DebRoy，2009) 可 以 使 我 们 便捷 地 访问 MySQL 数 
据 库 。 











总 之 ， 我 们 希望 在 读 完 本 书 之 后 ， 你 能 够 相信 个 用 花 钱 束 可 以 进行 
大 型 问题 的 数据 挖掘 。 这 一 切 都 归功 于 开发 出 R 和 MySQL 这 样 优秀 软件 
的 人 们 的 慷慨 贡献 。 


1.1 如 何 阅 读本 书 


本 书 基于 做 中 学 的 宗旨 ， 组 织 了 一 系列 的 案例 研究 。 这 些 案例 
的 “解决 方案 ”通过 R 来 获取 。 本 书 描述 了 所 有 得 到 “解决 方案 ”的 必要 步 
骤 。 通 过 本 书 提供 的 网 站 [中 ， 可 以 获取 本 书 有 关 的 R 添 加 包 
(DMwR) ， 所 有 的 R 代 码 和 案例 研究 数据 都 在 相关 的 文档 中 。 这 可 以 
让 你 方便 地 目 己 进行 实验 。 理 论 上 ， 你 应 该 在 计算 机 上 阅读 这 些 文档 并 
尝试 这 些 文档 中 演示 给 你 的 每 一 个 步骤 。 在 本 书 中 ，R 代 码 是 用 以 下 代 
码 体 来 表示 的 : 








> R.version 


platform 1486-pc-linux-gnu 
arch i486 

os linux-gnu 
system i486, linux-gnu 
status 

major 2 

minor 10.1 

year 2009 

month 12 

day 14 

svn rev 50720 

language R 


version.string R version 2.10.1 (2009-12-14) 


在 R 的 命令 行 提 示 符 “>” 之 后 输入 R 命 令 。 当 看 到 这 个 提示 符 时 ， 


你 可 以 理解 为 R 在 等 待 输入 命令 。 在 命令 提示 符 后 输入 命令 ， 然 后 按 下 
ENTER (HÆ) 键 让 R 来 执行 它们 。 这 可 能 会 产生 某 种 形式 的 输出 〔 即 
R 命 令 的 结果 ) ， 然 后 出 现 一 个 新 的 提示 符 。 在 提示 符 处 ， 你 可 以 使 用 
箭头 键 来 浏览 和 编辑 以 前 输入 过 的 命令 。 知 以 前 输入 了 类 似 的 命令 ， 通 
过 编辑 以 前 的 命令 可 以 方便 地 得 到 你 需要 的 命令 ， 这 就 避免 了 重复 输 

入 。 可 以 复制 、 粘 贴 本 书 网 站 提供 的 代码 到 R 编 译 器 或 者 R 控 制 台 ， 这 
样 就 可 以 避免 自己 输入 书 中 的 那些 代码 ， 这 绝对 会 使 你 的 学 习 更 加 便 

捷 ， 并 加 深 你 对 书 中 知识 的 理解 。 


1] 下 载 地 址 : http://www.mysql.com. 
[2] http://www.liaad.up.pt/ ~ltorgo/DataMiningWithR/ o 


1.2 Rf} 


本 节 提 供 了 R 语 言 中 关键 术语 的 简要 介绍 。 该 者 不 需要 熟悉 计算 机 
编程 知识 就 可 以 容易 地 和 车 握 本 节 中 介绍 的 例子 。 不 过 ， 如 果 你 党 得 没有 
动力 来 学 习 这 部 分 R 人 简介 ， 可 以 先 跳 过 本 章 的 R 简 介 部 分 ， 直 接 进 行 膝 
例 研究 。 当 你 从 具体 应 用 中 得 到 更 多 的 学 习 R 语 言 的 动机 后 ， 再 返回 本 


章 的 R 简 介 部 分 。 























R 是 一 门 用 于 统计 计算 和 绘图 的 函数 语言 。 它 可 以 看 做 是 S 语 言 的 
一 种 方言 (由 AT&T 公 司 开 发 ) 。S 语 言 的 开发 者 John Chambers 因 为 S 
语言 而 于 1998 年 被 授予 计算 机 学 会 (Association of Computing 
Machinery,ACM) 软件 奖 ， 获 奖 时 提 到 S 语 言 “永远 改变 了 人 们 分 析 、 可 
视 化 和 操作 数据 的 方式 ”。 











仅仅 在 命令 行 交 互 方式 下 R 就 已 经 非常 有 用 了 。 也 可 以 有 更 高 级 的 
应 用 R 软 件 系 统 的 方式 ， 比 如 用 户 可 以 开发 自己 的 函数 来 执行 系统 性 的 
重复 任务 ， 甚 至 可 以 利用 R 的 开源 优点 来 增加 或 者 修改 已 有 的 R 添 加 包 
中 的 功能 。 


1.2.1 REF 


在 计算 机 中 安装 R 最 简单 的 方法 是 从 R 网 站 趾 获 取 一 个 二 进 制 发 行 


版 。 从 R 网 站 的 链接 中 可 以 找到 综合 R 文 档 网 站 (Comprehensive R 
Archive Network,CRAN) ， 在 该 网 站 的 诸多 资源 中 ， 可 以 找到 适合 你 操 
作 系 统 / 架 构 的 二 进 制 发 行 版 。 如 果 喜 欢 直 接 从 R 源 代码 来 安装 R 软 件 ， 
可 以 从 R 的 CRAN 网 站 得 到 从 源 代码 安装 R 的 指导 文档 。 


下 载 适 合 你 操作 系统 的 二 进 制 发 行 版 后 ， 只 需要 按照 其 中 的 说 明 ， 
一 步 一 步 进行 即 可 。 对 于 R 的 Windows 版 本 ， 只 需 运 行 下 载 文 件 CR- 
2.10.1-win32.exe) [了 ， 在 之 后 的 菜单 中 选择 所 需要 的 选项 。 在 某 些 操 
作 系 统 中 ， 由 于 缺乏 安装 软件 的 权限 ， 可 能 需要 联系 系统 管理 员 来 完成 
安装 任务 。 





在 Windows 操 作 系统 中 ， 只 需要 双击 桌面 上 相应 的 图 标 就 可 以 运行 
R; 而 在 UNIX 操 作 系 统 中 ， 则 需要 在 操作 系统 提示 符 后 输入 字母 R。 它 


们 最 终 将 局 动 带 有 命令 行 提示 符 “ 二 ”的 R 控 制 台 。 





如 果 想 退出 R， 可 以 在 R 提 示 符 下 输入 指令 q()。R 将 询问 是 否 要 保存 
当前 工作 空间 的 内 容 。 如 果 想 在 以 后 恢复 当前 R 退 出 时 的 分 析 内 容 ， 应 


该 回答 “是 ”。 








虽然 R 安 装 后 有 了 强大 的 功能 ， 但 是 你 可 能 需要 安 效 一 些 CRAN 上 
其 他 的 R 添 加 包 。 在 Windows 版 本 中 ， 很 容易 通过 “程序 包 ? 沫 单 来 安装 R 
谎 加 包 。 将 计算 机 连接 到 互联 网 后 ， 应 该 在 沫 单 中 选择 “安装 程序 
包 .……” 这 个 选项 。 选 择 该 选项 后 ，R 首 移 弹 出 一 个 CRAN 的 镜像 窗口 ， 








让 你 选择 合适 的 CRAN 镜 像 网 站 。 选 择 了 CRAN 镜 像 网 站 之 后 ， 它 会 给 

出 另外 一 个 窗口 ， 列 出 在 CRAN 网 站 上 可 用 的 R 添 加 包 列 表 。 在 列表 中 

选择 你 需要 的 添加 包 后 ，R 将 下 载 该 添加 包 并 上 自动 安装 在 R 软 件 系 统 

中 。 在 UNIX 版 本 中 ， 添 加 包 的 安装 可 能 会 随 独 R 安 装 过 程 中 图 形 功能 的 
不 同 而 略 有 不 同 。 不 过 ， 即 使 不 是 使 用 菜单 来 安装 ， 通 过 命令 行 安 闭 添 
加 包 也 是 很 简单 的 吕 。 假 设 需要 要 下 载 一 个 能 够 提供 连接 到 MySQL 数 

据 库 功能 的 添加 包 ， 包 的 名 称 是 RMySQL 1 。 只 需要 在 R 提 示 符 处 输入 
LR ar: 

















> install. packages ('RMySQL') 


install.packagesO 函 数 有 许多 参数 ， 其 中 有 CRAN 镜 像 库 参 数 repos， 
通过 该 参数 可 以 设 定 离 你 最 近 的 CRAN 镜 像 6 。 尽 管 如 此 ， 当 第 一 次 在 


会 话 中 运行 该 命令 时 ，R 会 提示 你 选择 需要 使 用 的 CRAN 镜 像 库 。 


区 








你 应 该 做 的 事情 之 一 是 安装 本 书 所 供 的 R 添 加 包 ， 该 添加 包 提 供 了 
本 书 用 到 的 数据 集 和 贯穿 全 书 的 多 个 函数 。 和 安 逆 其 他 R 添 加 包 一 样 ， 
安装 本 书 提供 的 添加 包 的 代码 如 下 : 


> install. packages ('DMwR' ) 


如 果 你 想 知 道 目 前 在 计算 机 上 已 经 安装 的 R 添 加 包 ， 可 执行 以 下 命 


> installed. packages () 


这 将 产生 一 个 很 长 的 输出 ， 输 出 的 每 一 行 包 含 一 个 包 名 、 版 本 信 
电 、 上 所 依赖 的 包 等 。 另 外 一 种 获取 已 经 安装 的 R 添 加 包 的 方式 是 用 以 下 


A 
命令 : 


> library(Q 


尽管 它 的 输出 信息 不 完整 ， 但 是 却 用 户 友好 的 。 另 外 一 个 非常 有 用 
的 命令 是 检查 CRAN 上 是 否 有 已 安装 的 R 添 加 包 的 更 新 版 本 : 


> old.packages() 





此 外 ， 可 以 使 用 下 面 的 命令 来 更 新 所 有 已 安装 的 R 软 件 包 : 
> update. packages () 


R 软 件 有 一 个 集成 的 帮助 系统 ， 可 以 用 它 来 了 解 更 多 的 R 函 数 和 R 软 
件 系 统 。 此 外 ， 可 以 在 R 网 站 找到 更 多 的 R 文 档 。R 软 件 带 有 一 组 HTML 
文件 ， 可 以 使 用 Web 浏 览 器 读 取 它们 。 在 Windows 版 本 的 R 上 ， 可 以 通 
过 帮助 菜单 来 访问 这 些 网 页 。 另 外 ， 也 可 以 在 R 提 示 符 下 执行 命令 
help.start(0) 来 启动 浏览 器 以 显示 这 些 HTML 帮 助 页 面 。 另 一 种 得 到 帮助 的 
形式 是 使 用 help0 函 数 。 例 如 ， 如 果 和 需要 plot0) 函 数 的 帮助 信息 ， 可 以 输 
入 命令 “help (plot) ”( 或 者 ? plot) 。 如 果 连 接 到 互联 网 ， 那 么 一 个 相 


当 强 大 的 功能 就 是 使 用 RSiteSearch(O 函 数 ， 用 它 来 搜索 邮件 列表 文档 、 
R 手 册 和 R 帮 助 页 面 中 的 关键 词 或 短语 ， 例 如 : 





> RSiteSearch('neural networks') 


最 后 ， 在 Web 上 还 有 几 个 地 方 可 以 找到 R 的 各 种 帮助 内 容 ， 如 网 站 


http://www.rseek.org/. 


[1] http://www.t-project.org. 

2] 实际 的 文件 名 随 着 R 版 本 的 不 同 而 不 同 ， 这 里 的 文件 名 是 R 21010 X 
件 名 。 

B) 注意 ， 这 里 的 R 命 令 在 Windows 操 作 系 统 下 也 是 可 以 运行 的 ， 尽 管 应 
四 可 以 从 R 的 CRAN 网 站 的 常见 问题 部 分 (R FAQ) 了 解 每 一 个 R 添 加 包 
的 功能 。 

[5] 所 有 的 CRAN 镜 像 库 列表 可 以 从 网 站 http://cran.r- 


project.org/mirrors.html 得 到 。 


1.2.2 RYE 


R 语 言 有 两 个 主要 概念 : 对 象 和 函数 。R 对 象 可 以 看 做 是 具有 关联 
名 称 的 存储 空间 。R 中 的 一 切 都 存储 在 一 个 对 象 中 。 所 有 的 变量 、 数 
据 、 函 数 等 都 是 以 命名 对 象 的 形式 存储 在 计算 机 的 内 存 中 。 





函数 是 一 种 用 来 进行 条 个 操作 的 特殊 类 型 的 R 对 象 。 它 们 通常 接受 
一 些 输入 参数 ， 通 过 执行 一 系列 的 操作 产生 结果 它们 通常 由 其 他 函数 
来 调用 ) 。R 己 经 有 大 量 的 函数 可 供 使 用 ， 但 稍 后 还 将 看 到 ， 用 户 还 可 
以 创建 新 的 函数 。 











可 以 使 用 赋值 运算 符 把 内 容 存 储 到 对 象 中 。 赋 值 运算 符 是 用 一 个 尖 
括号 和 一 个 减 号 来 表示 的 〈<<-) H, 


> X <- 945 





上 一 条 指令 的 作用 是 把 数值 945 存 储 在 名 为 x 的 对 象 中 。 只 需要 在 R 
提示 符 后 输入 对 象 的 名 称 ， 就 可 以 看 到 它 的 内 容 中 。 


r a < 


[1] 945 





而 在 数字 945 前 面 的 “[1* 可 以 读 作 “ 此 行 是 从 对 象 的 第 一 个 元 素 开始 





显示 的 值 ?>。 后 面 我们 会 看 到 ， 这 样 的 显示 对 于 包含 多 个 值 的 对 象 〈 例 
如 回 量 等 ) 特别 有 用 。 


下 面 给 出 其 他 赋值 语句 的 例子 。 这 些 例子 清楚 地 说 明 这 是 一 个 “ 破 
坏 性 ”的 操作 。 因 为 在 任何 时 间 t， 一 个 对 象 只 能 有 一 个 给 定 的 内 容 。 这 
意味 着 ， 将 某 些 新 的 内 容 分 配给 现 有 对 象 时 ， 该 对 象 束 失去 了 其 先前 的 
内 容 。 





> y <- 39 
a i 


[1] 39 


> y <- 43 
ay 


[1] 43 


也 可 以 把 数值 表达 式 赋 给 一 个 对 象 。 在 这 种 情况 下 ， 该 对 象 将 存储 
表达 式 的 结果 : 
> = 5 


>w<- 2°2 
>w 


[1] 25 


>i <- (z * 2 + 45)/2 
> a | 


[1] 27.5 











我 们 可 以 这 样 来 看 赋值 运算 : 无论 运算 符 右 侧 是 什么 ， 都 先 计算 右 
侧 ， 然 后 把 计算 结果 赋 给 (存储 赋值 号 左 侧 的 对 象 。 





如 果 只 是 想 知 道 菜 些 算术 运算 的 结果， 那么 不 需要 把 表达 式 的 结果 
赋 给 对 象 。 实 际 上 ， 可 以 把 R 提 示 符 作为 一 种 计算 器 : 


> (34 + 90)/12.5 


[1] 9.92 


创建 的 每 个 对 象 都 将 存储 在 计算 机 内 存 中 ， 直 到 删除 它 。 可 能 通过 
和 输入 1s0 或 objectsO 命 令 列举 出 当前 内 存 中 的 对 象 。 如 有 果 不 再 需要 一 个 对 
象 了 ， 可 以 通过 删除 它 来 释放 一 些 内 存 空间 : 


> 1s() 

BY WE Wa EW a 
> rm(y) 

> rm(z, w, i) 

对 象 名 称 可 以 包括 任何 大 写字 母 、 小 写字 母 、 数 字 0 一 9 (不 能 用 于 
名 称 的 开头 ) 以 及 和 字母 作用 相似 的 符号 “”。 注 意 ， 在 R 中 的 名 称 是 区 
分 大 小 写 的 ， 这 意味 着 Color 和 color 是 两 个 不 同 的 对 象 。 实 际 上 ， 这 特 
第 是 导致 初学 者 遇 到 ?* 找 不 到 对 象 ? 错 误 的 一 个 第 见 原因 。 如 果 遇 到 这 种 
类 型 的 错误 ， 应 该 首先 检查 出 现 错误 的 对 象 名 称 的 正确 性 。 





[1 这 里 也 可 以 用 “=” 作 为 赋值 运算 符 ， 但 是 不 建议 采用 ， 因 
为 “= THA MARA 

D] 如 果 名 称 输入 不 正确 ， 则 会 得 到 错误 信息 ， 这 是 应 用 RR 时 经 常 发 生 的 
一 种 错误 ! 


1.2.3 向量 











向 量 是 R 中 最 基本 的 数据 对 象 。 甚 至 当 把 单一 数字 赋 给 一 个 对 象 
(例如 x 二 -45.3) 时 ， 也 就 创建 了 一 个 包含 单个 元 素 的 向 量 。 所 有 对 象 
都 有 模式 (mode〉 和 长 度 属性 。 模 式 决定 了 存储 在 对 象 中 的 数据 类 
型 。 向 量 用 来 存储 一 组 基本 类 型 相同 的 数据 。R 的 主要 基本 数据 类 型 是 
字符 型 串 、 逻 辑 型 、 数 值 型 、 复 数 型 。 因 此 ， 向 量 可 以 是 字符 型 、 逻 
辑 值 型 CT、F， 或 者 FALSE、TRUE) (了 、 数 值 型 和 复数 型 。 一 个 对 象 
的 长 度 是 它 含 有 元 素 的 数量 ， 可 以 用 length0 函 数 来 获取 。 























在 大 多 数 情况 下 ， 使 用 长 度 大 于 1 的 向 量 。 可 以 在 R 中 使 用 cO 函 数 
和 相应 的 参数 来 创建 一 个 同 量 : 

>v <- c(4, 7, 23.5, 76.2, 80) 

> Vv 

[1] 4.0 7.0 23.5 76.2 80.0 

> length(v) 

[1] 5 

> mode(v) 


[1] "numeric" 


7S LB TA 0 as Al ZU PPE ES. OURAN ae, RKR 


执行 类 型 转换 。 下 面 承 是 这 样 的 一 个 例子 : 
> v <- c(4, 7, 23.5, 76.2, 80, "rrt") 
> Vv 


[1] na” a ad "93.5" "76.2" "go" "rrt" 


向 量 的 所 有 元 素 已 转换 为 字符 模式 。 字 符 值 是 由 单 引 号 或 双 引 号 包 
售 的 字符 溃 。 所 有 回 量 可 以 包 侣 一 个 特殊 值 ， 即 NA， 该 值 代表 缺失 
值 : 


uw ela 0 M, 2) 
>u 


[1] 4 6NA 2 


> k <- c(T, F, NA, TRUE) 
>k 


[1] TRUE FALSE NA TRUE 





TS ZAR], A A i] 7S eS BE TR 


> v[2] 


[1] “74 


上 例 给 出 了 向 量 v 的 第 二 个 元 素 。 在 后 面 的 1.2.7 节 中 ， 我 们 将 学 习 
使 用 索引 回 量 来 获得 更 强大 的 索引 方法 。 








通过 使 用 相同 的 索引 集 略 ， 可 以 改变 一 个 特定 癌 量 元 素 的 值 。 


> v[i] <- "hello" 


> Y 
{i] "hello" nyu "93.5" "76.2" "go" "rre" 
R 人 允许 创建 空间 量 : 


> x <- vector() 














如 果 使 用 不 存在 的 索引 来 添加 同 量 元 素 ， 束 可 以 改变 同 量 的 长 度 。 
例如 ， 创 建 空间 量 x 后 ， 可 以 输入 : 
> x[3] <- 46 
a 


[1] NA NA 45 








注意 ， 回 量 的 前 两 个 元 素 有 未 知 的 值 NA。 这 种 灵活 性 是 有 代价 
的 。 与 其 他 编程 语言 不 同 ， 如 果 在 R 中 使 用 一 个 不 存在 的 癌 量 位 置 ， 不 


会 得 到 错误 : 








> length(x) 
[1] 3 

> x[10] 

[1] NA 


> x[5] <- 4 
>x 


[1] NA NA 45 NA 4 


为 了 缩小 癌 量 的 大 小 ， 可 以 利用 之 前 提 到 过 的 赋值 运算 的 破坏 性 性 
质 ， 例如 : 

>v <- c(45, 243, 78, 343, 445, 44, 56, 77) 

> y 

[1] 45 243 78 343 445 44 56 77 


> v <- c(vi5], v[7]) 
>v 


[1] 445 56 

尽管 将 在 1.2.7 节 学 习 使 用 更 强大 的 索引 方法 ， 但 这 里 仍然 可 以 用 一 
个 简单 的 方法 删除 向 量 的 特定 元 素 。 
1] 及 的 字符 型 数据 事实 上 是 一 组 字符 ， 而 不 是 你 可 能 认为 的 单个 字符 ， 
这 在 其 他 编程 语言 中 常常 称 为 字符 串 类 型 。 


[2] 注意 到 R 中 的 名 称 是 大 小 写 敏 感 的 。 因 此 ，True 不 是 一 个 有 效 的 区 辑 


值 。 


1.2.4 HEM 





R 语 言 最 强大 的 方面 之 一 束 是 函数 的 回 量 化 。 这 些 函 数 可 以 直接 对 
器 量 的 每 个 元 素 进 行 操作 。 例 如 : 





> y <- c(4, 7, 23.5, 76.2, 80) 
> x <- sqrt(v) 
I 


[1] 2.000000 2.645751 4.847680 8.729261 8.944272 


sqrt0 函 数 计算 其 参数 的 算术 平方 根 。 这 种 情况 下 ， 使 用 数值 器 量 作 
为 它 的 参数 。 向 量化 函数 输出 一 个 与 输入 参数 相同 长 度 的 结果 问 量 ， 结 
果 问 量 的 每 个 元 素 是 函数 应 用 到 原来 输入 癌 量 的 相应 元 系 得 到 的 结 











也 可 以 利用 R 的 这 个 特性 进行 同 量 的 算术 运算 : 


> vl <- c(4, 6, 87) 
> v2 <- c(34, 32.4, 12) 
> vi + v2 


[1] 38.0 38.4 99.0 
SOAR PAS TA) ESIC EAN TA], MEMAR? R 将 使 用 循环 规 


则 ， 该 规则 重复 较 短 的 向 量 元 素 ， 直 到 得 到 的 疝 量 长 度 与 较 长 向 量 的 长 
度 相同 。 例 如 : 




















> yi <= c(8, 6, 8, 24) 
> v2 <- c(10, 2) 
> vi + v2 


[1] 14 8 18 26 


它 是 把 向 量 c (10, 2) 扩充 为 c (10，2，10，2) 。 如 果 较 长 向 量 
的 长 度 不 是 较 短 向 量 的 整数 倍 ， 则 R 给 出 警告 : 














> vi <- c(4, 6, 8, 24) 
> v2 <= c(10, PA 4) 
> v1 + v2 


(1] 14 8 12 34 
Warning message: 
In-vi +°*2 s 
longer object length is not a multiple of shorter object length 


循环 规则 已 经 应 用 ， 运 算 也 完成 了 。《〈 这 里 只 是 给 出 一 个 警告 ， 而 
不 是 错误 ! ) 





如 前 所 述 ， 单 个 数字 在 R 中 表示 为 长 度 为 1 的 同 量 。 这 种 表示 在 下 面 
的 运算 中 非常 方便 : 
> vi <- c(4, 6, 8, 24) 
>2* vi 


[1] 8 12 16 48 


注意 ， 数 字 2《〈 实 际 上 是 向 量 c (2) ! ) 被 循环 ， 导 致 v1 的 所 有 元 
素 乘 以 2。 正 如 我 们 将 看 到 的 ， 这 种 循环 规则 也 适用 于 其 他 的 对 销 ， 如 


数组 和 和 矩阵 。 


1.25 BEF 


因子 提供 了 一 个 简单 而 又 紧凑 的 形式 来 处 理 分 类 《名 义 ) 数据 。 因 
子 用 水 平 来 表示 所 有 可 能 的 取 值 。 如 果 数 据 集 有 取 值 个 数 固 定 的 名 义 变 
量 ， 因 子 束 特别 有 用 。 下 面 的 革 节 将 要 学 习 的 多 个 图 形 函 数 和 汇总 函数 
就 应 用 了 因子 的 这 种 优点 。 对 有 用户 来 说 ， 这 种 使 用 和 显示 因子 数据 的 方 
式 显 然 是 易于 理解 的 ， 而 R 软 件 内 部 以 数值 编码 方式 来 存储 因 了 于 值 ， 这 
将 大 大 提高 内 存 的 利用 效率 。 











下 面 举例 说 明 如 何在 R 中 创建 因子 。 假 设 有 一 个 10 个 人 的 性 别 癌 
量 : 

> g <= Ct Bit 3 "m", mee Hi oc ep ee st aa “f*) 

>g 


[i] wen tm" "m" "m" ngn Wm" ngn Wm" wen ngu 


你 可 以 把 这 个 向 量 转 换 为 一 个 因子 : 


> g <- factor(g) 
>g 


加 二 f 2 
Levels: f m 


注意 ， 得 到 的 不 再 是 一 个 字符 网 量 。 上 面 提 到 ， 实 际 上 这 些 因子 在 


RA Ma A Be ae 。 在 这 个 例子 中 ， 因 子 有 两 个 水 

平 ， 人 和 ‘m”?， 在 R 内 部 分 别 表示 为 1 和 2。 然 而 ， 你 不 需要 关心 这 个 内 部 
表示 ， 因 为 你 可 以 使 用 “原始 的 ”字符 值 ，R 在 显示 因子 时 也 使 用 这 种 字 
符 方式 。 因 此 ， 出 于 效率 的 考虑 ，R 因 子 的 编码 转换 是 用 户 透 明 的 。 





假设 有 为 外 5 个 人 ， 需 要 把 他 们 的 性 别 信 息 存储 在 为 一 个 因子 对 象 
中 。 假 设 他 们 都 是 男性 。 如 果 仍 然 需 要 这 个 因 了 于 对 象 与 对 象 g8 有 两 个 相 
同 的 因子 水 平 ， 则 必须 使 用 以 下 命令 : 





> other.g <- factor(c("m", "m", "m", “m", "m"), levels = c("f", 
+ "m")) 
> other.g 


fi] mmmmm 
Levels: f m 





如 果 没 有 在 输入 参数 中 设 定 levels 参 数 ， 因 子 other.g 将 只 有 一 个 水 平 
(2m2) 。 


在 R 这 样 的 函数 型 编程 语言 中 ， 最 常见 的 应 用 函数 的 方式 之 一 就 是 
像 上 例 中 的 函数 复合 方式 。 它 是 把 函数 〈factor0 ) 应 用 到 另 一 个 函数 
CO) 的 结果 。 显 然 ， 我 们 可 以 首先 把 函数 cO 的 结果 赋值 给 一 个 对 
象 ， 然 后 再 用 该 对 象 调用 factor0 函 数 。 然 而 ， 这 会 更 抹 烦 并 且 创 建 多 余 
对 象 也 会 浪费 内 存 ， 因 此 人 们 经 常 使 用 这 种 函数 复合 。 函 数 复合 的 缺点 
是 ， 它 给 不 熟悉 这 种 函数 复合 的 用 户 带 来 阅读 困难 。 





利用 因子 类 型 数据 ， 可 以 做 的 事情 之 一 是 计算 每 个 可 能 值 的 友 生 次 
数 。 例 如 : 








> table(g) 


on hh 09 


m 
5 

> table (other.g) 

other.g 

fm 

05 

table() 函 数 也 可 以 用 于 获取 多 个 因子 的 交 又 表 。 假 设 向 量 a 存储 10 个 

人 所 属 的 年 龄 ， 那 么 可 以 得 到 这 两 个 向 量 的 交叉 表 : 





>a <- factor(c(‘adult','adult','juvenile','juvenile','adult','adult', 
+ ‘adult','juvenile','adult','juvenile')) 
> table(a,g) 





你 可 能 已 经 注意 到 有 的 行 是 以 一 个 “+” 和 号 开始 ， 当 一 行 代码 太 长 ， 
你 决定 在 命令 完成 之 前 力 起 一 个 新 行 〈 按 “ 回 车 ” 键 ， 时 ， 殊 会 使 
用 “+” 写 ， 这 时 候 由 于 上 一 行 没有 完 ， 所 以 R 在 新 起 的 一 行 以 “4+” 开始， 
它 古 新 行 继 续 提示 符 。 要 记 住 的 是 ， 新 行 继 续 提 示 符 不 是 输入 的 ! 它们 


古 由 R《 如 正 币 提示 符 “ 之 ”) 目 动 输出 的 。 





有 时 候 ， 我 们 希望 计算 列 联 表 的 边际 和 相对 频率 。 下 面 给 出 了 上 面 
数据 集 的 性 别 和 年 龄 因子 的 总 计 : 
> t <- table(a, g) 
> margin.table(t, 1) 


a 
adult juvenile 
6 4 


> margin.table(t, 2) 


Cn hh 09 


m 
5 

函数 的 输入 参数 “1 和 “2? 分 别 代表 列 联 表 的 第 一 个 和 第 二 个 维度 ， 
即 表 t 的 行 和 列 。 


每 个 维度 边际 和 总 计 的 相对 频率 如 下 : 


> prop.table(t, 1) 


& 
a f m 
adult 0.6666667 0.3333333 
juvenile 0.2500000 0.7500000 


> prop.table(t, 2) 
8 


a T m 
adult 0.8 0.4 


juvenile 0.2 0.6 


> prop.table(t) 


g 
a 


f 
adult 0.4 0. 
juvenile 0.1 0. 
注意 ， 如 果 需 要 的 是 百分比 ， 可 以 在 调用 函数 时 乘 以 100。 


[1] 可 以 通过 输入 mode (g) 来 确认 这 一 点 。 


1.2.6 生成 序列 





R 提 供 了 多 种 生成 不 同类 型 序列 的 方法 。 比 如 ， 创 建 一 个 包含 1 一 
1000 所 有 整数 的 问 量 ， 可 以 简单 地 输入 : 


> x <- 1:1000 





就 创建 了 一 个 名 为 x 的 向 量 ， 同 量 x 包 含 了 1000 个 元 素 ， 即 1~~1000 
的 所 有 整数 。 


注意 运算 符 “: ”的 优先 级 ， 我 们 通过 下 面 的 例子 来 说 明 这 个 问题 : 


To= | 
[1] 9 10 11 12 13 14 
> 10:(16 = 1) 


[1] 10 11 12 13 14 


这 里 需要 理解 第 一 个 命令 的 结果 〈 记 住 循环 规则 ) ，“: ”的 优先 级 
高 于 减法 “-”。 


同样 ， 可 以 生成 如 下 的 递减 序列 : 


> 5:0 


(11 §43210 


可 以 利用 函数 seq0 生 成 实数 序列 ， 比 如 : 


> seq(-4, 1, 0.5) 


[i] -4.0 -3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 


生成 了 从 -4 一 1、 以 0.5 为 增 量 的 一 个 实数 序列 。 函 数 seq() 还 有 其 他 
功能 中 。 下 面 举例 说 明 seq0) 函 数 的 其 他 功能 : 


> seq(from = 1, to = 5, length = 4) 

[1] 1.000000 2.333333 3.666667 5.000000 
> seq(from = 1, to = 5, length = 2) 

(1) 15 

> seq(length = 10, from = -2, by = 0.2) 


[1] -2.0 -1.8 -1.6 -1.4 -1.2 -1.0 -0.8 -0.6 -0.4 -0.2 





你 可 能 已 经 注意 到 ， 在 上 面 的 例子 中 ， 在 函数 调用 中 可 以 有 不 同 的 
方式 给 出 函数 参数 一 一 先 给 出 参数 名 ， 再 给 出 该 参数 需要 使 用 的 特定 参 
数值 。 因 此 ， 当 我 们 使 用 带 有 多 个 参数 且 大 部 分 参数 都 采用 默认 值 的 函 
数 时 ， 这 将 非常 方便 。 一 旦 这 些 参 数 默 认 值 满足 我 们 的 需要 ， 我 们 就 可 
以 避免 人 为 地 指定 设置 这 些 参数 。 但 是 ， 如 果 这 些 默认 值 不 适用 于 我 们 
的 问题 ， 那 么 我 们 就 需要 提供 其 他 可 选 值 。 如 果 没 有 像 上 面 例子 那样 通 
过 参数 名 设 定 参数 ， 则 需要 根据 参数 位 置 来 设 定 参数 值 。 如 有 果 想 要 改变 
的 默认 值 参数 是 函数 的 最 后 参数 之 一 ， 那 么 根据 参数 位 置 设 定 将 要 求 对 





该 参数 之 前 所 有 的 参数 值 进 行 设 定 ， 不 管 是 否 使 用 的 是 参数 的 默认 值 外 
。 因 为 在 设 定 参数 值 时 给 出 了 参数 的 名 称 ， 所 以 按 名 称 设 定 参数 可 以 在 
函数 调用 中 改变 参数 的 顺序 。 





男 一 个 产生 具有 茶 种 模式 序列 的 有 用 函数 是 rep() 函 数 。 比 如 : 


> rep(5, 10) 
[1] 5555555555 
> rep("hi", 3) 
[iy “Sa Fa" Shi” 
> rep(1:2, 3) 
Ay 2 Sissi 2 
> rep(1:2, each = 3) 


Hid 1-1222°2 


el paige ny HAE ri BAP. SER BI HE E 
gl (k,n) ， 其 中 Kk 有 是 因子 水 平 的 个 数 ，n 是 每 个 水 平 的 重复 数 。 这 里 举 两 
TAT: 





> g1(3, 5) 


E 8 2k 2 ah 2 eS ers aS a8 
Levels: 1 2 3 


> gl(2, 5, labels = c("female", “male")) 


[i] female female female female female male male male male male 
Levels: female male 





最 后 ，R 有 多 个 可 以 根据 不 同 概率 密度 函数 来 生成 随机 序列 的 函 
数 。 这 些 函 数 的 通用 结构 是 rfunc (n, parl, par2, ...... ) ， 其 中 func 是 
概率 分 布 的 名 称 ，n 是 要 生成 的 随机 数 的 个 数 ，parl，par2，.………… 是 概率 
密度 函数 所 需要 的 一 些 参数 值 。 例 如 ， 可 以 产生 10 个 服从 均值 为 0、 标 
准 关 为 1 的 正 态 分 布 的 随机 数值 : 


> rnorm(10) 


[1] -0.74350857 1.14875838 0.26971256 1.06230562 -0.46296225 
[6] -0.89086612 -0.12533888 -0.08887182 1.27165411 0.86652581 


为 了 产生 4 个 服从 均值 为 0(、 标 准 兰 为 3 的 正 态 分 布 的 随机 数值 ， 可 
以 使 用 : 


> rnorm(4, mean = 10, sd = 3) 


[1] 5.319385 15.133113 8.449766 10.817147 


为 了 获得 5 个 服从 自由 度 为 10 的 t 分 布 的 随机 数值 ， 可 以 输入 : 


> rt(5, df = 10) 


[1] -1.2697062 0.5467355 0.7979222 0.4949397 0.2497204 





RA ESMERO DAR SEA AS SE BR PR A EE Zp 
布 的 分 位 数 函 数 。 


[1] 你 可 以 通过 在 R 命 令 窗口 输入 “? seq” 得 到 函数 seq0 的 帮助 信息 。 通 
过 阅读 函数 seqd0 的 帮助 文档 ， 可 以 更 好 地 理解 和 掌握 函数 sed0 的 参数 和 
其 他 函数 形式 。 

D] ”实际 上 ， 我 们 可 以 简单 地 使 用 过 号 直到 达到 我 们 所 期 望 的 位 置 ， 如 
seq (1, 4, 40) 。 


1.2.7 数据 子 集 





前 面 例子 中 提 到 ， 可 以 在 方 括号 内 放 入 元 素 的 位 置 来 获得 向 量 中 的 
某 个 元 素 。R 也 人 允许 在 方 括号 中 使 用 向 量 。R 有 多 种 类 型 的 索引 向 量 。 
逻辑 索引 向 量 可 以 提取 相应 于 真 值 的 元 素 。 让 我 们 来 看 一 个 具体 的 例 
F: 





>x <- c(0, -3, 4, -1, 45, 90, -5) 
> i, 


[1] FALSE FALSE TRUE FALSE TRUE TRUE FALSE 


上 面 显 示 的 第 二 个 命令 是 逻辑 条 件 。 由 于 x 是 辣 量 ， 所 以 将 癌 量 中 
所 有 的 元 系 与 0 进行 比较 ，〔 这 里 应 用 了 循环 规则 ! ) 产生 一 个 长 度 与 
器 量 x 相 同 的 好 辑 值 向 量 。 如 果 使 用 该 逻辑 值 向 量 对 x 进行 索引 ， 就 可 以 
得 到 相应 TRUE 值 位 置 的 向 量 x 的 元 素 : 





> x[x > 0] 


[1] 4 45 90 
上 面 代码 可 以 这 样 理解 :给 出 逻辑 表达 式 为 真 的 x 的 位 置 。 注 意 ， 
这 是 应 用 函数 复合 的 妨 一 个 例子 ， 函 数 复合 在 本 书 中 应 用 得 相当 频繁 。 
利用 R 中 的 逻辑 运算 符 ， 可 以 使 用 更 复杂 的 逻辑 索引 癌 量 ， 例 如 : 


> x[x <= -2 | x > 5] 
[1] -3 45 90 -5 
> x[x > 40 & x < 100] 


[1] 45 90 

PRECARA: “PSR ARAM, “& "ISHARES 
。 这 表明 ， 第 一 个 命令 要 求 小 于 等 于 -2， 或 者 大 于 5 的 x 的 元 素 。 第 二 个 
例子 表示 大 于 40 同 时 小 于 100 的 x 中 的 所 有 元 素 。 























R 还 可 以 使 用 整数 同 量 来 提取 癌 量 中 的 多 个 元 素 ， 索 引 辐 量 中 的 数 
字 表 示 提 取 的 元 素 在 原 同 量 中 的 位 置 。 例 如 : 








> xfc(4，6)j 
[1] -1 90 
> xf{1:3] 
[1] 0-3 4 


>y <- c(1, 4) 
> x[y] 


BE “Oo <3 











另外 ， 也 可 以 使 用 一 个 负 值 的 索引 向 量 来 表示 哪些 元 素 可 以 排除 。 
例如 : 


> x{-1] 

[1] -3 4 -1 45 90 -5 
> x{-c(4, 6)] 

[1] 0-3 4 45 -5 

> x{-(1:3)] 

[1] -1 45 90 -5 


注意 ， 在 上 面 的 第 三 个 例子 中 ， 由 于 运算 符 “: ”的 优先 级 较 高 ， 所 
以 我 们 使 用 了 括号 。 





可 以 通过 R 函 数 hames() 来 给 向 量 中 的 元 系 命 名 。 对 于 命名 的 问 量 
素 ， 可 以 通过 字符 串 回 量 来 进行 索引 。 由 于 命名 的 元 素 位 置 更 容易 记 
住 ， 所 以 有 时 候 命 名 元 系 更 受 欢 迎 。 例 如 ， 在 5 个 不 同 的 地 方 测量 了 一 
个 化 学 参数 的 测量 值 向 量 。 可 以 创建 如 下 的 命名 向 量 : 











> pH <- c(4.5, 7, 7.3, 8.2, 6.3) 
> names(pH) <- c("areai", "“area2", "mud", "dam", "middle") 
> pH 


areal area2 mud dam middle 
4.5 TO 7.8 8.2 6.3 


> pH <- c(areal = 4.5, area2 = 7, mud = 7.3, dam = 8.2, middle = 6.3) 


实际 上 ， 如 果 在 创建 向 量 时 ， 己 经 知道 向 量 中 位 置 的 名 称 ， 那 么 下 
面 的 方式 更 简单 : 











现在 可 以 使 用 上 面 给 出 的 名 称 对 pH 回 量 进行 索引 : 


> pH["mud"] 


mud 
Es 


> pH{c("areai", "dam")] 


4.5 8.2 











最 后 ， 当 索引 为 空 时 ， 表 示 所 有 的 元 素 者 被 选 定 。 空 索引 表示 是 在 
选择 过 程 中 没有 限制 条 件 。 例 如 ， 需 要 给 一 个 回 量 赋予 零 值 ， 那 么 可 以 
简单 地 写成 “x[] 二 -0”"。 注 意 ， 这 与 “x 二-0” 不 同 。 后 一 种 情况 表示 把 含有 
单一 元 素 〈 零 ) 的 向 量 赋 给 x， 而 前 面 一 种 情况 (假设 之 前 存在 问 量 x) 
将 会 使 得 向 量 x 的 所 有 元 素 都 变 成 零 。 试 一 下 这 两 种 代码 ! 














[1] R 也 有 替代 上 面 单 运算 符 的 双 运 算 符 ， 即 公公 和 ||， 它 们 执行 相同 的 
运 工 。 这 两 个 蔡 代 运算 符 从 左 到 右 来 计算 表达 式 ， 并 且 只 检验 向 量 的 第 


一 个 元 素 ， 而 单字 符 运 算 符 则 检验 向 量 的 每 个 元 素 。 


1.2.8 ”矩阵 和 数组 





数据 元 素 可 以 保存 在 具有 多 个 维度 的 对 象 中 。 在 多 种 情况 下 这 尤其 
有 用 。 数 组 存储 的 是 多 维 数据 元 素 。 和 矩阵 是 数组 的 特殊 情况 ， 它 具有 两 
个 维度 。 在 R 中 ， 数 组 和 和 矩阵 都 是 带 有 维度 这 个 特定 属性 的 向 量 。 假 设 
有 一 个 数值 向 量 c (45，23，66，77，33，44，56，12，78，23) ,下 
面 把 这 10 个 数值 组 织 为 一 个 和 矩阵: 





>m <- c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23) 
> m 


[1] 45 23 66 77 33 44 56 12 78 23 


> dim(m) <- c(2, 5) 
> m 


[,1] [,2] [,3] (,4] [,5] 
[1,] 45 66 33 56 78 
2 


注意 ， 数 值 如 何 分 配 到 这 个 2 行 5 列 的 矩阵 中 (这 里 用 函数 dim() 来 
给 维度 mm 赋值 ) 。 其 实 ， 可 以 使 用 更 简单 的 命令 来 创建 该 矩阵 : 


> <- matrix(c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23), 2, 
+ 5) 





RREGALAT o E 


先 ， 将 数据 填 a 到 第 一 列 ， 然 后 填 到 第 二 列 ， 以 此 类 推 。 可 以 通过 设 定 函 
数 matrix() 的 参数 来 按 行 填充 甜 阵 : 


> me <= matriz(c(46, 23, 66, 77, 33, 44, 56, 12, 78, 23), 2, 
+ 5, byrow = T) 
>m 


[,1 [,2] (,3] [,4] (,5] 
fi.) 45 23 66 77 33 
[2,] 44 56 12 78 23 





如 和 矩阵 的 显示 所 示 ， 可 以 通过 类 似 于 向 量 中 的 索引 方法 来 访问 矩阵 
的 元 素 ， 但 现在 需要 两 个 索引 (和 窜 阵 的 维度 〉: 








> m{[2, 3] 


[i] 32 


FY AAAS 1.2.70 RR 9] A AREE ERAR. W TE 
例子 所 示 : 


> m[-2, 1] 
[1] 45 
> m[i, -c (3, 5)] 


[1] 45 23 77 


UESb, BOAR AMS TEER, RE RERE A ITERA: 


> mfi, ] 
[1] 45 23 66 77 33 
> mf, 4] 


{1] 77 78 


注意 ， 在 上 面 两 个 例子 中 ， 作 为 数据 子 集 ， 得 到 的 结果 可 能 是 一 个 
向 量 。 如 果 需 要 得 到 的 结果 仍然 是 一 个 矩阵 ， 那 么 即使 它 是 一 个 1 行 或 
者 1 列 的 矩阵 ， 都 可 以 使 用 下 面 的 命令 : 


> m[i, , drop = F] 


[,1] [,2] (,3] (,4] (,5] 
[1,] 45 23 66 77 33 


> mf, 4, drop = F] 
Loa] 
Bl “27 
{2,] 78 
PK AC cbind() #lrbind() AY LA ay All IZA AFT H FE PS 7S BP PS DE BY [ad 

或 矩阵 合并 在 一 起 。 我 们 通过 下 面 的 例子 来 说 明 这 一 点 : 


> m1 <- matrix(c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23), 2, 
+ 5) 
> mi 


[,1 [,2] [,3] [,4] [,5] 
(1,] 45 66 33 56 78 
wi S @ 2 @B 


> cbind(c(4, 76), mif, 4]) 


EAI La 
Eii 4 56 
[At 7 22 


> m2 <- matrix(rep(10, 20), 4, 5) 
> m2 


[,1] [,2] [,3] £,4) (,5) 
[1,] 10 10 10 10 I 
[2,] 9 Ww 19 WwW WW 
[3,] 10 30 0 10 19 
[4,] 10 10 10 10 10 


> m3 <- rbind(mi[i, ], m2[3, ]) 
> m3 


Cd LA 1.3) (C4) 0,4] 
n] 4 CSCC 
(2.) 20 160 140 #1 10 


我 们 也 可 以 使 用 函数 colnames0 和 rownames0O 分 别 给 窃 阵 的 行 和 列 
命名 ， 这 样 有 利于 记 住 数据 的 位 置 。 


> results <- matrix(c(10, 30, 40, 50, 43, 56, 21, 30), 2, 4, 
+ byrow = T) 
> colnames (results) <- c("1qrt", "2grt", “3qrt", “4qrt") 
> rownames(results) <- c("store1", "store2") 
> results 
igrt 2qrt 3qrt 4qrt 
Storel 10 30 40 50 
store2 43 56 21 30 


> results["store1", ] 


lgrt 2qrt 3qrt 4qrt 
10 30 40 50 


> results["store2", c("1grt", "4qrt")] 
igrt 4qrt 
43 30 
数组 是 矩阵 的 扩展 ， 它 把 数据 的 维度 扩展 到 两 个 以 上 。 这 意味 着 数 
组 中 的 元 素 需要 两 个 以 上 的 索引 。 除 此 之 外 ， 数 组 与 矩阵 类 似 ， 可 以 用 
相同 的 方法 使 用 。 与 函数 matrix() 类 似 ， 可 以 通过 函数 array() 方 便 地 创建 
数组 。 下 面 是 应 用 函数 array0 的 一 个 例子 : 


> a <- array(1:24, dim = c(4, 3, 2)) 
>a 


[,1] [,2] [,3] 


[2] 1 5 9 
[2,] 2 6 10 
(3,] 3 T N 
[4,] 4 8 12 
a 


Leis Lent Los 
AI eb A 
2] 3 lie 2 
i) 36 19 323 
a.) Ie 20 wa 
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子 所 示 。 


> aff, 3,21 
[1] 21 
es 2] 
(1] 13 17 21 
> af4, 3, J 
[1] 12 24 
> afc(2, 3), 5 2] 
Ej1] (,2] (,3] 
(1,] 2 6 410 
ast + F 
尽管 有 时 候 理 解 起 来 有 些 困 难 ， 但 循环 规则 和 算术 运算 规则 同样 适 
用 于 矩阵 和 数组 。 下 面 是 几 个 例子 : 


> mE <- matrix(c(45, 23, 66, 77, 33, 44, 56, 12, 78, 23), 2, 
+ 5) 
> mm. 


[,1] [,2] (,3] [,4] (,5] 
[1,] 45 66 33 56 78 
ai D T a Ss 


>m * 3 


[,1] [,2] [,3] [,4] [,5] 
[1,] 135 198 99 168 234 
(2,] 69 231 132 36 69 


> mi <- matrix(c(45, 23, 66, 77, 33, 44), 2, 3) 
> mi 


iT. Eat Ey 
[1,] 45 66 33 
at 2 7 « 


> m2 <- matrix(c(12, 65, 32, 7, 4, 78), 2, 3) 
> m2 


Ca] G2 C3 
H i2 Si 4 
Gt 66 7 78 


> mi + m2 
bN (,2) (,3] 
(1,] 57 98 37 
[2,] 88 84 122 
R 也 包含 了 标准 的 矩阵 代数 运算 操作 和 函数 ， 可 以 阅读 R 随 机 文 
档 “ 了 简介” 的 第 五 节 以 获取 矩阵 运算 的 更 多 信息 。 





1.2.9 ”列表 


R 列 表 是 以 其 他 对 象 为 成 分 的 有 序 集合 。 列 表 的 成 分 和 问 量 的 元 素 
不 同 ， 它 们 不 一 定 是 同一 种 数据 类 型 、 模 式 或 者 相同 长 度 。 列 表 的 成 分 
总 是 编号 的 并 且 有 一 个 名 称 属性 。 下 面 用 一 个 简单 例子 来 说 明 如 何 构造 
一 个 列表 : 

> my.lst <- list(stud.id=34453, 

+ stud.name="John", 

+ stud.marks=c(14.3,12,15,19)) 

对 象 my.lst 由 三 个 成 分 组 成 : 第 一 个 是 名 称 为 stud.id 的 数值 ， 第 二 个 
是 名 称 为 stud.name 的 字符 串 ， 第 三 个 是 名 称 为 stud.marks 的 数值 同 量 。 





和 查看 其 他 R 对 象 一 样 ， 通 过 输入 列表 的 名 称 来 查看 该 列表 的 内 
容 ， 例 如 : 


> my.ist 


$stud.id 
[1] 34453 


$stud.name 
[1] "John" 


$stud.marks 
if] 14:3 12.0 15:0 19.0 


可 以 通过 下 面 的 索引 方式 得 到 列表 的 元 素 : 


> my.lst[[1]] 
[1] 34453 
> my.lst[[3]] 


[1] 14.3 12.0 15.0 19.0 


注意 ， 上 例 中 应 用 了 双方 括号 。 如 果 应 用 命令 my.lst[1]， 那 么 将 会 
得 到 不 同 的 结果 : 


> my.1st [i] 
$stud.id 
[1] 34453 
第 二 个 命令 获取 列表 my.lst 的 第 一 个 成 分 构成 的 子 列表 。 相 反 ， 
my.lst[[1]] 提 取 列 表 的 第 一 个 组 件 的 值 〈 在 这 种 情况 下 是 一 个 数 ) ， 结 
果 将 不 再 是 一 个 列表 ， 如 下 所 示 : 





> mode (my.1st{1]) 
HJ "list" 
> mode(my.1st{[1]]) 


[1] "numeric" 


对 于 含有 命名 成 分 的 列表 (如 上 例 所 示 〉， 可 以 用 为 一 种 方式 来 提 


取 列 表 成 分 的 值 : 


> my.lst$stud.id 


[1] 34453 


列表 成 分 的 名 称 实 际 上 是 列表 的 一 个 属性 ， 它 可 以 像 癌 量 元 素 名 那 
样 进 行 操 作 : 
> names (my.1st) 


[1] "stud.id" "stud.name" "stud.marks" 


> names(my.lst) <- c("id", "name", “marks") 
> my.1st 


$id 
{1] 34453 


$name 
[1] "John" 


$marks 
{1] 14.3 12.0 15.0 19.0 


也 可 以 通过 添加 附加 元 素 的 方式 来 扩展 列表 : 


> my.1lst$parents.names <- c("Ana", "Mike") 
> my.ist 


$id 
[1] 34453 


$name 
[1] "John" 


$marks 
[1] 14.3 12.0 15.0 19.0 


$parents.names 
[1] "Ana" "Mike" 


可 以 使 用 函数 length0 来 检查 列表 成 分 的 个 数 : 


> length (my.1st) 


[i] 4 
> my.lst <- my.1st[-5] 
也 可 以 如 下 所 示 来 剔除 列表 的 成 分 : 


也 可 以 通过 函数 c() 来 合并 列表 : 


> other <- list(age = 19, sex = "male") 
> lst <- c(my.1st, other) 
> Ist 


$id 
[1] 34453 


$name 
[1] "John" 


$marks 
[1] 14.3 12.0 15.0 19.0 


$parents.names 
[1] "Ana" "Mike" 


$age 
[1] 19 


$sex 
[1] "male" 


最 后 ， 可 以 通过 函数 unlist() 把 列表 中 的 所 有 元 素 转 换 为 铝 量 元 系 ， 


转换 后 的 回 量 元 素 的 个 数 和 列表 中 所 有 数据 对 象 的 个 数 相 同 。 该 操作 将 
把 列表 中 不 同类 型 的 数据 转 为 统一 的 类 型 中， 这 意味 着 大 多 数 情况 下 
把 所 有 列表 数据 转换 为 字符 型 。 另 外 ， 得 到 的 问 量 元 素 都 有 一 个 源 目 列 
表 成 分 的 名 称 : 





> unlist (my.1st) 


id name marks1 marks2 marks3 

"34453" "John" "14.3" "121 "15" 
marks4 parents.namesi parents.names2 
" 19" "Ana" "Mike" 


[1 因为 向 量 元 素 的 类 型 必须 相同 ， 参 见 1.2.3 节 。 


1.2.10 “数据 框 


数据 框 是 R 软 件 中 用 于 存储 数据 表 的 一 种 数据 结构 。 它 的 结构 与 二 
维和 矩阵 类 似 。 然 而 ， 与 矩阵 不 同 的 是 ， 数 据 框 的 每 列 可 以 有 不 同 数据 类 
型 的 数据 。 在 这 个 意义 上 ， 数 据 框 和 列表 更 相似 。 实 际 上 ， 对 R 而 言 ， 
数据 框 是 一 类 特殊 的 列表 。 











可 以 把 数据 框 的 每 一 行 作为 一 个 观测 值 〈 或 称 为 个 案 ) ， 它 由 一 组 
变量 《数据 框 的 命名 列 ) 来 描述 。 


可 以 用 下 列 方式 来 创建 数据 框 : 


> my.dataset <- data.frame(site=c('A','B','h','h','B'), 
+ season=c(‘Winter','Summer','Summer','Spring','Fall'), 
+ pH = c(7.4,6.3,8.6,7.2,8.9)) 
> my.dataset 
site season pH 
1 A Winter 7.4 
2 B Summer 6.3 
3 A Summer 8.6 
4 A Spring 7.2 
5 B Fall 8.9 





可 以 像 窍 阵 那样 访问 数据 框 的 元 素 : 


> my.dataset[3, 2] 


[1] Summer 
Levels: Fall Spring Summer Winter 


注意 ，“season” 列 的 所 有 元 素 为 字符 型 ， 因 而 该 列 被 转换 为 因子 类 
型 。 类 似 地 , “site” 列 也 是 因子 类 型 。 这 些 转换 是 函数 data.frame0 的 默认 
FAM, 
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取 数 据 框 的 一 列 数据 : 


> my.dataset$pH 


[1] 7.4 6.3 8.6 7.2 8.9 


可 以 利用 R 的 数据 子 集 的 优势 来 方便 地 访问 数据 框 中 的 数据 ， 如 下 
所 示 : 


> my.dataset [my.dataset$pH > 7, J 


site season pH 


1 A Winter 7.4 
3 A Summer 8.6 
4 A Spring 7.2 
5 B Fall 8.9 
> my.dataset [my.dataset$site == "A", "pH"] 


[1] 7.4 8.6 7.2 


> my.dataset [my.dataset$season == "Summer", c("site", "pH")] 


site pH 
2 B 6.3 
3 A 8.6 


FY DAT DY FA K BlattachQkK fik LGA. eh Battach() a) LA A 
VIBE AEN A, MAC aS DOA DY AY EE : 
> attach(my.dataset) 
> my.dataset[site=="B', ] 


site season pH 
2 B Summer 6.3 
5 B Fall 8.9 


> season 


[1] Winter Summer Summer Spring Fall 
Levels: Fall Spring Summer Winter 





函数 attach0 的 反问 操作 是 函数 detach()， 它 禁止 直接 访问 数据 框 的 
列 。 


> detach (my.dataset) 
> season 


Error: Object "season" not found 


如 末 仪 对 数据 框 进行 简单 的 查询 ， 那 么 应 用 函数 subset() 将 十 分 方 
全 


> subset (my.dataset, pH > 8) 


site season PpH 
3 A Summer 8.6 
5 B Fall 8.9 


> subset (my.dataset, season == "Summer", season:pH) 
season pH 


2 Summer 6.3 
3 Summer 8.6 


和 上 面 的 例子 不 同 ， 不 能 用 取 子 集 的 方式 来 改变 数据 框 中 数据 的 
值 。 例 如 ， 如 果 需 要 把 季节 为 “summer” 的 行 的 pH 值 加 1， 只 能 通过 下 列 
方式 进行 ; 


> my.dataset [my.dataset$season == 'Summer','pH'] <- 
+ my.dataset [my.dataset$season == 'Summer','pH'] + 1 


与 列表 类 似 ， 可 以 在 数据 框 中 加 入 新 列 : 


> my.dataset$NO3 <- c(234.5, 256.6, 654.1, 356.7, 776.4) 
> my.dataset 


site season pH NO03 
1 A Winter 7.4 234.5 
2 B Summer 7.3 256.6 
3 A Summer 9.6 654.1 
& A Spring 7.2 356.7 
5 B Fali 8.9 776.4 


对 于 加 入 新 列 的 唯一 限制 就 是 新 列 必须 和 已 有 的 数据 框 有 相同 的 行 
Bl; 否则 ，R 会 报错 。 可 以 用 下 列 两 个 函数 来 获得 数据 框 的 行 数 或 列 
Bl: 








> nrow(my.dataset) 
[1] 5 
> ncol (my. dataset) 


[1] 4 





在 数据 挖掘 的 任务 中 ， 通 常 很 少 需 要 用 上 面 提 人 到 的 data.frame() 函 数 
来 手动 输入 数据 。 一 般 是 把 来 源 于 文件 或 者 数据 库 的 数据 集 读 入 数据 
框 。 在 后 面 的 数据 挖掘 案例 研究 音节 中 ， 你 将 学 习 如 何 把 数据 导入 到 数 
据 杠 中。 无论 如 何 ， 建 议 你 浏览 R 提 供 的 "及 数据 导入 和 导出 ”手册 ， 了 
解 R 所 具有 的 功能 。 


R 有 一 个 类 似 于 电子 表格 的 接口 ， 可 以 用 于 小 型 数据 的 输入 。 可 以 


用 下 面 的 方式 来 编辑 一 个 已 经 存在 的 数据 框 : 


> my.dataset <- edit(my.dataset) 


或 者 可 以 创建 一 个 新 的 数据 框 ， 


> new.data <- edit(data.frame()) 





可 以 用 一 个 名 称 向 量 来 改变 数据 框 的 列 名 : 


> names (my.dataset) 


[1] "site" "season" "pH" "NO3" 


> names(my.dataset) <- c("area", "season", "pH", "N0O3") 
> my.dataset 


area season pH N03 
A Winter 7.4 234.5 
B Summer 7.3 256.6 
A Summer 9.6 654.1 
A Spring 7.2 356.7 
B Fall 8.9 776.4 


oP WD 赫 











因为 数据 框 的 名 称 属性 是 辐 量 ， 所 以 如 果 仅 仅 需要 改变 数据 框 茶 个 
特定 列 的 名 称 ， 就 可 以 输入 : 


> names(my.dataset) [4] <- "P04" 
> my.dataset 


area season pH P04 
A Winter 7.4 234.5 
B Summer 7.3 256.6 
A Summer 9.6 654.1 
A Spring 7.2 356.7 
B Fall 8.9 776.4 


oF WH 


最 后 ，R 有 一 些 “ 内 置 ?的 数据 集 ， 可 以 用 它们 来 学 习 和 探索 R 的 功 
能 。 大 多 数 的 R 添 加 包 也 有 上 自 带 的 数据 集 。 为 了 获取 己 有 数据 集 的 信 
恩 ， 可 以 执行 下 列 命令 : 


> data() 


可 以 通过 下 列 方式 来 应 用 已 有 的 数据 集 : 


> data(USArrests) 





上 面 的 命令 “创建 > 了 一 个 名 为 USArrests 的 数据 框 ， 它 含有 内 置 在 R 
中 相应 问题 的 数据 集 。 


U) 参考 函数 data frame0 帮 助 文档 中 应 用 函数 I0 的 例子 ， 或 者 应 用 参数 
sttfingsAsFactofs 来 避免 这 种 强制 转换 。 


1.2.11 构建 新 函数 





R 人 允许 用 户 构造 新 函数 。 当 需要 目 动 化 茶 些 不 断 重 复 的 任务 时 ， 应 
用 R 的 这 一 特性 将 十 分 有 用 。 每 次 需要 执行 任务 时 ， 可 以 不 用 重 写 任 务 
关 令 ， 可 以 把 这 些 指 令 封装 在 一 个 新 沙 数 中 ， 然 后 在 必要 时 应 用 该 函数 
PLAT LAS 

函数 是 与 前 面 看 到 的 对 象 有 类 似 结构 的 一 种 对 象 。 作 为 对 象 ， 
数 可 以 存储 值 。 存 储 在 函数 中 的 “ 值 ”是 一 组 指令 ， 当 R 调 用 该 函数 时 执 
行 这 组 指令 。 因 此 ， 为 了 构建 新 函数 ， 需 要 用 赋值 运算 符 把 函数 的 内 容 
存储 到 一 个 对 象 名 《〈 即 函数 名 ) 中。 


下 面 举 一 个 简单 的 例子 。 假 设 需要 计算 一 组 数据 的 均值 的 标准 误 
差 。 根 据 定义 ， 样 本 均值 的 标准 误差 为 : 


n 





s% 是 样本 方差 ，n 是 样本 大 小 。 





给 定 一 个 数值 向 量 ， 现 在 需要 计算 相应 的 标准 误差 。 先 命名 该 函数 
为 se， 在 创建 该 函数 之 前 ， 我 们 需要 检查 R 中 是 否 已 经 有 一 个 同名 的 函 
数 存 在 。 如 果 的 确 有 同名 的 函数 存在 ， 那 么 最 好 选择 一 个 不 同 的 名 称 ; 


否则 ， 会 把 R 中 已 经 存在 的 R 函 数 对 用 户 隐藏 起 来 上 。 为 了 检查 一 个 函 
数 在 R 中 是 否 已 经 存在 ， 在 R 命 令 行 提示 符 处 输入 函数 名 束 可 以 了 : 


> se 


Error: Object "se" not found 





R 给 出 错误 信息 说 明 这 个 名 称 在 R 中 不 存在 ， 可 以 放心 使 用 。 如 采 
一 个 名 称 为 se 的 函数 〈 或 者 其 他 对 象 ) 已 经 存在 ， 那 么 R 将 输出 该 对 象 
的 内 容 ， 而 不 是 输出 错误 信息 。 


下 面 是 创建 新 函数 的 一 种 可 能 方式 : 


> se <- function(x) { 
+ v <- var(x) 

+ n <- length(x) 

+ return(sqrt(v/n)) 
+ } 


function(<set of parameters>) { <set of R instructions> } 


办 此， 为 了 构建 一 个 函数 对 象 ， 使 用 下 面 的 通用 形式 给 函数 名 赋 
值 : 


创建 完成 该 函数 后 ， 可 以 用 下 列 方式 进行 调用 : 


> se(c(45,2,3,5,76,2,4)) 


[1] 11.10310 





与 上 面 的 se0 函 数 一 样 ， 如 果实 现 一 个 函数 需要 执行 许多 操作 ， 那 
么 需要 以 东 种 形式 告诉 R 该 函数 体 何 时 开始 ， 何 时 结束 。R 用 大 括 写 作 
为 一 组 指令 的 开始 和 结束 的 语法 元 素 。 


任何 函数 的 返回 值 都 可 以 由 函数 return(0) 确 定 ， 或 者 R 返 回 函数 中 最 
后 运算 表达 式 的 结果 。 下 面 的 函数 演示 了 这 一 点 ， 并 应 用 了 有 默认 值 的 
参数 。 


basic.stats <- function(x,more=F) { 
stats <- list() 


clean.x <- x[!is.na(x)] 


stats$n <- length(x) 
stats$nNAs <- stats$n-length(clean.x) 


> 

+ 

+ 

+ 

+ 

+ 

+ 

_ 

+  stats$mean <- mean(clean.x) 

+ stats$std <- sd(clean.x) 

+ stats$med <- median(clean.x) 

+ if (more) { 

+ stats$skew <- sum(((clean.x-stats$mean)/stats$std)~3) / 
+ length (clean. x) 

+ stats$kurt <- sum(((clean.x-stats$mean)/stats$std)~4) / 
+ length(clean.x) - 3 

e 

+ unlist(stats) 

+ 


} 


述 函 数 的 一 个 参数 或 多 个 ) 有 默认 值 CF) 。 这 意味 着 调用 该 
函数 时 可 以 设置 或 者 不 设置 该 参数 。 如 果 调 用 该 函数 时 没有 设 定 第 二 个 
参数 的 值 ， 那 么 该 参数 将 应 用 它 的 默认 值 。 下 例 给 出 了 这 两 种 方式 的 示 


VS 


例 : 


> basic.stats(c(45, 2, 4, 46, 43, 65, NA, 6, -213, -3, -45)) 


n nNAs mean std med 
11.00000 1.00000 -5.00000 79.87768 5.00000 


> basic.stats(c(45, 2, 4, 46, 43, 65, NA, 6, -213, -3, -45), 
+ more = T) 


n nNAs mean std med skew kurt 
11.000000 1.000000 -5.000000 79.877684 5.000000 -1.638217 1.708149 


函数 basic.stats0 引 入 R 的 一 种 新 指令 : if() 指 令 。 该 指令 可 以 使 某 些 
日 令 在 逻辑 测试 为 真 值 时 执行 。 在 上 面 的 例子 中 ， 有 两 行 指令 分 别 计算 
向 量 值 的 偏 度 (skew) MIERE Curt) ， 如 果 变 量 more 的 值 为 真 时 ， 它 
们 才 执 行 ， 否 则 ， 它 们 将 被 跳 过 而 不 执行 。 


为 一 个 重要 的 指令 是 for()。 访 指令 允许 一 组 指令 重复 地 执行 多 次 。 
下 面 是 应 用 该 指令 的 例子 : 


> f <- function(x) { 

+ for(i in 1:10) f 

+ res <- x*i 

+ cat(xz,'s',1,'=".res;'\n') 
+ 于 

+ } 


is FAS EBA REQ) (例如 f (5) ) 。 上 面 的 函数 中 的 for 指 令 
告诉 R， 它 后 面 大 括号 内 的 指令 需要 执行 多 次 〈 这 里 为 10 次 ) . aie 


说 ， 这 些 指令 随 着 每 次 i 取 不 同 的 值 而 被 重复 执行 ，i 的 取 值 为 集合 1: 
105: Pi Dy. Be sass ，10。 它 意味 着 在 for 里 的 指令 将 被 执行 10 次 ， 
次 取 不 同 的 值 。 关 键 词 n 后 面 的 值 可 以 是 任何 向 量 ， 它 们 不 必须 是 序列 
或 者 数值 型 。 函 数 cat() 用 于 将 多 个 对 象 的 内 容 输 出 到 屏幕 。 也 就 是 说 ， 
字符 型 数据 将 输出 它 自身 〈 试 运行 cat Chello! ') ) ， 而 其 他 对 象 将 输 
出 它们 的 内 容 ( 试 运行 y= 二 -45， 然 后 cat (y) ) 。 字 符 串 “nm” 使 R 换 到 下 
一 行 输出 。 





[1] 这 里 对 用 户 隐 藏 的 R 标 准 函 数 仍 然 是 存在 的 。 但 是 ， 在 搜索 路 径 中 与 
它 具 有 相同 名 称 的 用 户 自 定义 函数 位 于 其 顶部 ， 因 此 “隐藏 ”了 R 的 标 


1.2.12 对象、 类 和 方法 


R 的 设计 原则 之 一 是 方便 数据 的 操作 ， 这 样 我 们 就 可 以 容易 地 进行 
数据 分 析 任 务 。 在 R 中 ， 数 据 以 对 象 的 形式 存储 。 前 面 提 到 ，R 中 的 一 
切 ， 从 简单 的 数值 到 函数 、 或 更 复杂 的 数据 结构 等 ， 痢 是 对 象 。 

R 对 象 都 是 属于 一 类 。 类 定义 了 属于 它们 对 象 的 抽象 特征 。 也 就 是 说 ， 
类 定义 了 属于 它们 对 象 的 特征 和 行为 (或 者 方法 ) 。 例 如 ， 和 矩阵 类 
(matrix) 有 维度 属性 和 针对 茶 些 运算 的 一 些 特殊 行为 。 事 实 上 ， 当 
查询 R 的 窍 阵 内 容 时 ，R 在 屏 大 上 以 一 种 特定 的 形式 输出 矩阵 。 这 是 因 
为 所 有 来 自 窍 阵 类 的 对 象 都 有 一 个 相关 联 的 特定 输出 方法 。 忌 之 ， 一 个 
对 象 所 属 的 类 将 决定 : 1) 茶 些 泛 型 函数 应 用 于 这 些 对 象 时 将 应 用 的 方 
法 ; 2) 对 象 的 表示 方法 。 对 象 的 表示 由 存储 在 类 对 象 的 信息 构成 。 














R 有 许多 预定 义 的 对 象 类 和 相关 的 方法 。 基 于 这 些 已 有 的 对 象 类 ， 
可 以 创建 新 的 对 象 类 和 新 方法 。 新 方法 可 以 是 新 类 的 方法 ， 也 可 以 是 已 
有 类 的 方法 。 新 类 一 般 建立 在 已 有 类 的 基础 上 ， 通 党 它们 在 已 有 类 的 表 
示 上 添加 新 信息 。 








类 的 表示 由 一 组 格子 构成 。 每 个 格子 有 一 个 名 称 和 决定 它 所 存储 信 
恩 相 关联 的 类 。 运 算 符 “@” 用 来 获取 存储 在 对 象 格子 中 的 信息 。x@y 表 
示 存 储 在 对 象 x 中 的 格子 y 的 值 。 显 然 ， 它 假定 x 所 属 的 类 含有 一 个 名 为 y 








的 格子 的 信息 。 


另 一 个 与 类 有 关 的 概念 是 类 继承 。 继 承建 立 了 两 个 类 之 间 的 关系 ， 
它 允 许 在 一 个 已 有 类 上 添加 额外 的 信息 从 而 扩展 为 一 个 新 类 。 这 种 类 扩 
展 意味 看 新 类 继承 了 已 有 类 的 所 有 方法 ， 这 将 大 大 方便 新 类 的 创建 ， 而 
不 必 从 头 开始 。 这 时 ， 我 们 仪 仅 需 要 实现 新 类 中 不 同 于 它 所 扩展 类 的 操 
作 。 











最 后 一 个 重要 概念 是 多 态 。 有 些 函 数 可 以 应 用 于 多 个 不 同 的 对 象 
类 ， 产 生 相 应 于 该 对 象 类 的 结果 。 在 R 中 ， 多 态 与 泛 型 函数 紧密 联系 在 
一 起 。 泛 型 函数 实现 了 某 些 通用 的 高 级 操作 。 例 如 ， 前 面 用 到 的 函数 
plot0 可 以 产生 对 象 的 图 形 表示 ， 这 是 该 函数 的 通用 目的 。 然 而 ， 随 着 
对 象 类 的 不 同 ， 它 们 的 图 形 表示 实际 上 是 不 同 的 。 例 如 ， 绘 制 一 组 数值 
和 绘制 线性 模型 是 不 同 的 。 用 户 只 无 需 担忧 这 点 ， 多 态 性 是 解决 这 种 不 
同 的 关键 。 用 户 只 需要 知道 有 函数 会 产生 对 象 的 图 形 表 示 。R 和 它 的 内 
部 机 制 负责 调度 这 些 提 供 图 形 表 示 的 特定 类 的 通用 函数 。 所 有 这 些 函 数 
调度 的 细节 都 隐藏 在 R 内 部 ， 用 户 无 需 了 解 这 些 琐碎 的 细节 。 事 实 上 ， 
R 知 道 plotO 是 一 个 泛 型 函数 ， 它 搜索 适用 于 调用 plotO 函 数 的 类 对 象 的 特 
定 plot 方 法 。 如 采 存 在 这 样 一 个 特定 的 方法 ， 那 么 R 将 应 用 该 方法 ; A 
则 ，R 将 调用 默认 的 绘图 方法 。 当 用 户 决 定 创建 一 个 新 的 对 象 类 时 ， 他 
们 决定 是 否 需 要 该 对 象 类 的 特定 方法 。 因 此 ， 当 他 们 需要 绘制 新 的 类 对 
象 时 ， 需 要 提供 该 对 象 类 的 特定 绘图 方法 ， 该 绘图 方法 将 “告诉 只 如 何 











绘制 这 个 新 的 对 象 类 。 





以 上 是 R 的 类 和 方法 的 基本 概念 。 创 建新 类 和 相应 的 方法 超出 本 书 
的 讨论 范围 ， 读 者 可 以 参考 有 关 R 编 程 的 书籍 ， 例 如 Chambers 的 优秀 书 
籍 《Software for Data Analysis) (2008) 。 


1.2.13 ”管理 R 会 话 








当 用 R 来 解决 复杂 的 问题 时 ， 交 互 式 的 命令 行 方式 就 变 得 很 不 方 
便 。 这 时 ， 实 际 的 做 法 是 把 R 代 码 写 入 一 个 文本 文件 中 ， 然 后 让 R 来 执 
行 这 些 代码 。 为 了 生成 这 样 的 文件 ， 可 以 用 你 喜欢 的 文本 编辑 器 来 编辑 
(例如 记事 本 、Emacs 等 ) ， 或 者 在 Windows 操 作 系 统 中 ， 可 以 使 用 R 自 
带 的 脚本 编辑 器 ， 它 在 R 软 件 的 “文件 ? 沫 单 中 可 以 找到 。 当 建立 了 代码 
文件 并 保存 之 后 ， 可 以 在 R 命 令 行 中 用 下 面 的 命令 来 执行 文件 中 的 所 有 


AA 
命令 : 





> source ('mycode.R') 





假定 在 当前 工作 目录 中 有 一 个 名 称 为 “mycode.R” H 的 文本 文件 。 
在 Windows 下 ， 改 变 当前 工作 目录 的 简单 方法 是 通过 “文件 ? 荣 单 中 的 “ 改 
变 工作 目录 ”选项 。 在 UNIX 操 作 系 统 中 ， 可 以 分 别 用 函数 getwd() 和 
setwd() 来 获取 当前 工作 目录 和 改变 当前 工作 目录 。 

















在 交互 方式 下 应 用 R 的 命令 行 方式 时 ， 可 能 需要 保存 你 的 对 象 以 备 
以 后 应 用 《〈 例 如， 输入 的 函数 ) 。 下 面 的 例子 在 名 称 为 mysession.RData 
的 文件 中 保存 了 名 为 f 和 my.dataset 的 两 个 对 象 : 


> save(f,my.dataset, file='mysession.RData') 


以 后 ， 在 新 的 R 会 话 中 ， 可 以 使 用 下 面 的 命令 来 重新 读 入 这 些 对 
象 : 


> load('mysession.RData') 





也 可 以 用 下 面 的 命令 来 保存 当前 R 工 作 空 间 中 的 所 有 对 象 A 





> save.image() 








上 面 命令 在 当前 工作 目录 中 把 R 工 作 空间 保存 为 名 为 “RData” 的 文 
件 。 从 该 目录 局 动 R 时 ， 这 个 文件 将 目 动 地 载 入 R 中 。 当 R 退 出 时 ， 如 果 
回答 “是 >， 也 会 达到 上 面相 同 的 效果 〈 人 参见 1.2.1T) 。 


关于 R 的 参考 文献 


所 有 版 本 的 R 在 线 手 册 《RR 简介 》 是 学 习 R 语 言 的 极 好 资料 。R 网 站 
的 “文档 ”部 分 的 “贡献 文档 ”也 有 关于 R 不 同方 面 的 免费 书籍 。 


[1] 这 里 的 文件 名 后 级 “.R” 不 是 强制 的 ， 你 可 以 用 其 他 后 级 名 。 
(2) 前 面 提 到 过 ， 可 以 用 函数 ls0 来 列 出 当前 工作 空间 中 的 所 有 对 象 。 


1.3 ”MySQL 简介 


本 节 简 单 介绍 MySQL 数 据 库 。 在 本 书 的 案例 研究 中 不 一 定 要 应 用 
MySQL。 然 而 ， 对 于 大 型 的 数据 挖掘 项 目 ， 应 用 像 MySQL 这 样 的 数据 
库 是 必需 的 。 可 以 从 网 站 http:/www.mysql.com 免 费 下 载 MySQL 数 据 
库 。 与 R 类 似 ，MySQL 适 用 于 多 种 不 同 的 操作 系统 ， 例 如 Linux、 
Windows 等 。 如 果 希 望 在 计算 机 上 安装 MySQL 数 据 库 ， 应 该 首先 从 
MySQL 网 站 下 载 它 ， 然 后 按照 安装 指南 进行 安装 。 另 外 ， 也 可 以 访问 
安装 在 与 你 的 计算 机 联网 的 其 他 计算 机 上 的 MySQL 服 务 器 。 





可 以 应 用 网 络 上 或 者 本 地 计算 机 上 的 客户 端 程序 来 访问 MySQL。 
在 MySQL 网 站 上 ， 有 多 种 不 同 的 MySQL 客 户 端 程序 。MySQL 自 带 一 个 
控制 台 型 的 客户 端 程序 ， 该 控制 台 型 客户 端 和 R 类 似 ， 以 命令 行 方式 工 
作 。 另 外 ， 也 可 以 安装 并 应 用 图 形 界面 的 客户 端 程序 来 应 用 MySQL， 
其 中 之 一 是 MySQL Query Browser， 它 是 一 款 免费 的 MySQL 客 户 端 程 
序 ， 可 以 试 试 。 


如 果 应 用 控制 台 型 的 客户 端 程序 ， 那 么 可 以 在 操作 系统 的 命令 提示 
符 后 用 以 下 命令 来 访问 MySQL: 


$> mysql -u myuser -p 
Password: ******** 


mysql> 


如 果 访 问 远 程 的 MySQL 服 务 器 ， 则 应 用 下 列 命 令 : 


$> mysql -h myserver.xpto.pt -u myuser -p 
Password: *kkk*kkk* 


mysql> 
这 里 假设 MySQL 服 务 器 有 一 个 名 为 “myuser” 的 用 户 并 且 有 密码 保 


护 。 如 果 上 述 内 容 对 你 而 言 很 卫生 ， 你 应 该 与 系统 管理 员 进行 交流 或 者 
学 习 MySQL 安 装 手册 ， 或 者 阅读 相关 书籍 〈 例 如 ，DuBois，2000) 。 





进入 MySQL 数 据 库 后 ， 可 以 应 用 己 有 的 数据 库 或 者 创建 新 的 数据 
库 。 下 面 说 明 如 何在 控制 台 型 客户 并 用 命令 方式 来 创建 一 个 新 的 数据 
库 : 


mysql> create database contacts; 


Query OK, 1 row affected (0.09 sec) 


可 以 通过 以 下 命令 来 应 用 这 个 新 建 的 数据 库 或 者 其 他 已 经 存在 的 数 
气 库 : 


mysql> use contacts; 


Database changed 


数据 库 由 一 系列 表 构 成 ， 这 些 表 包含 相关 条 目的 数据 。 创 建 表 的 方 
AUP: 
mysql> create table people( 
-> id INT primary key, 
-> name CHAR(30), 


-> address CHAR(60)); 
Query OK, 1 row affected (0.09 sec) 


注意 符号 -二 ”是 表示 继续 MySQL 命 令 的 提示 符 


为 了 在 表 中 加 入 数据 ， 一 种 方法 是 手动 插入 数据 ， 故 一 种 方法 是 用 
MySQL 的 导入 命令 读 入 外 部 文件 中 的 数据 ， 例 如 外 部 文本 文件 中 的 数 
据 。 





把 一 条 记录 插入 表 中 的 方法 如 下 : 


mysql> insert into people 
-> values(1,'John Smith','Strange Street, 34, Unknown City'); 


Query OK, 1 row affected (0.35 sec) 


可 以 用 select 语 句 列 出 表 中 的 记录 。 例 如 : 


mysql> select * from people; 


+ 一 一 一 -二 一 一 一 一 一 一 一 一 一 一 一 $---------------------------------- + 
| id | name | address | 
二 ~ 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 +---------------------------------- + 
| 1 | John Smith | Strange Street, 34, Unknown City | 
+----+------------ $---------------------------------- + 


1 row in set (0.04 sec) 


mysql> select name, address from people; 


$----------- -二 ~ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| name | address | 
+------------ + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| John Smith | Strange Street, 34, Unknown City | 
$------------ poo oo -- = +--+ +--+ + +--+ ++ + 


1 row in set (0.00 sec) 


mysql> select name from people where id >= 1 and id < 10; 


þe- + 
| name | 
+=- + 
| John Smith | 
ee + 


1 row in set (0.00 sec) 


当 完 成 MySQL 中 的 工作 之 后 ， 可 以 在 控制 台 型 客户 端 用 命 


令 “quit* 退 出 MySQL。 


关于 MySQL 的 参考 文献 


可 以 阅读 MySQL 所 带 的 免费 手册 来 了 解 更 多 有 关 MySQL 的 知识 。 这 
个 手册 包含 了 从 安装 到 MySQL 所 应 用 的 SQL 语 言 技 术 细 节 的 所 有 内 容 。 
另外 ，DuBois (20004) 所 著 的 《MySQL》 一 书 ， 也 是 学 习 DBMS 的 最 
佳 参 考 资 料 ， 作 者 本 身 是 一 个 活跃 的 MySQL 开 发 人 员 。 


第 2 草 ” 预 测 海棠 数量 





本 案例 研究 将 介绍 一 些 数据 挖掘 的 基本 任务 : 数据 预 处 理 、 探 索性 
数据 分 析 和 预测 模型 的 构建 。 对 于 第 一 个 案例 研究 ， 我 们 选择 了 一 个 下 





数据 挖掘 标准 而 言 较 小 的 问题 。 这 个 问题 是 预测 水 样 中 茶几 种 有 害 海 漂 
的 存在 频率 。 如 果 你 不 熟悉 R 语 言 ， 并 且 没 有 阅读 1.2 节 ， 那 么 学 习 本 章 
的 案例 时 可 能 需要 复习 1.2 节 。 








2.1 问题 描述 与 目标 





东 些 高 浓度 的 有 害 攻 类 对 河流 生态 环境 的 强大 破坏 是 一 个 严重 的 问 
题 ， 它 们 不 仅 破坏 河流 的 生物 ， 也 破坏 水 质 。 能 够 监测 并 在 早期 对 海 省 
的 繁殖 进行 预测 对 提高 河流 质量 是 很 有 必要 的 。 


针对 这 一 问题 的 预测 目标 ， 在 大 约 一 年 的 时 间 内 ， 在 不 同时 间 内 收 
集 了 欧洲 多 条 不 同 河流 的 水 样 。 对 于 每 个 水 样 ， 测 定 了 它们 的 不 同化 学 
性 质 以 及 7 种 有 害 薄 类 的 存在 频率 。 在 水 样 收集 过 程 中 ， 也 记录 了 一 些 
其 他 特性 ， 如 收集 的 季节 、 河 流 大 小 和 水 流 的 速度 。 





本 采 例 研究 的 主要 动机 之 一 是 化 学 监测 价格 便宜 ， 并 且 易 于 上 自动 
化 。 而 通过 分 析 生物 样品 来 识别 水 中 的 党 类 要 涉及 显微镜 检验 ， 需 要 训 
练 有 和 又 的 工作 人 员 ， 因 此 既 昂 贯 又 缓慢 。 因 此 ， 构 建 一 个 可 以 基于 化 学 
性 质 来 准确 预测 茶 关 的 模型 将 有 助 于 建立 监测 有 害 涂 类 的 廉价 的 目 动 化 
系统 。 











本 案例 研究 的 另 一 个 目的 是 更 好 地 了 解 影响 攻 类 频率 的 因素 。 也 就 
古 说 ， 我 们 要 了 解 党 类 的 频率 和 水 样 的 茶 些 化 学 性 质 以 及 其 他 特性 《如 
季节 、 河 流 类 型 等 ) 是 如 何 相 关 的 。 


2.2 ”数据 说 明 


本 案例 的 数据 来 自 于 ERUDIT H 研究 网 络 ， 并 被 用 于 1999 年 的 
COIL 国际 数据 分 析 竞 赛 。 可 以 从 多 个 不 同 的 地 方 得 到 本 案例 的 数据 ， 
例如 UCI 机 器 学 习 数据 库 A 


本 案例 有 两 个 数据 集 ， 第 一 个 数据 集 有 200 个 水 样 。 更 精确 地 说 ， 
该 数据 集 的 每 一 条 记录 是 同一 条 河流 在 该 年 的 同一 个 季节 的 三 个 月 内 收 
集 的 水 样 的 平均 值 。 














每 条 记录 由 11 个 变量 构成 。 其 中 3 个 变量 是 名 义 变量 ， 它 们 分 别 描 
述 水 样 收集 的 季 市 、 收 集 样品 的 河流 大 小 和 河水 速度 。 余 下 的 8 个 变量 
征 所 观测 水 样 的 不 同化 学 参数 ， 即 : 


.最 大 pH 值 


最 小 含 氧 量 ( 


J 


平均 氧化 物 含量 〈C]) 
平均 硝酸 盐 含量 (NO, - ) 


平均 正 磷酸 盐 含量 (PO43 ) 


平均 磷酸 起 含量 CPO, ) 


平均 叶绿素 含量 





与 这 些 参数 相关 的 是 7 种 不 同 有 害 攻 类 在 相应 水 样 中 的 频率 数目 。 
并 未 提供 所 观察 洽 类 的 名 称 的 有 关 信 息 。 


第 二 个 数据 集 由 140 个 额外 观测 值 构 成 。 它 们 的 基本 结构 和 第 一 个 
数据 集 一 样 ， 但 是 它 不 包含 7 种 汇 类 的 频率 数目 。 这 些 人 额外 的 观测 值 可 
以 视 为 测试 集 。 本 案例 的 主要 目标 是 预测 140 个 水 样 中 7 种 党 类 的 频率 。 
这 意味 着 它 是 一 个 预测 型 数据 挖掘 任务 。 这 是 数据 挖 据 所 处 理 的 诸多 问 
题 中 的 一 类 问题 。 在 这 种 问题 中 ， 任 务 古 建立 预测 模型 ， 并 预测 在 给 定 
预测 变量 的 取 值 时 相应 的 目标 变量 的 值 。 预 测 模 型 也 可 能 会 说 明 哪 一 个 
预测 变量 对 目标 变量 有 较 大 的 影响 ， 即 模型 可 能 提供 影响 目标 变量 因 系 


的 一 个 综合 搬 述 。 





























[1] http:/ /www.erudit.de/erudit/. 


[2] http:/ /archive.ics.uci.edu/ml/. 


2.3 数据 加 载 到 R 


我 们 考虑 两 种 把 数据 载 入 R 的 方法 : 1) 利用 本 书 提供 的 R 添 加 包 ， 
该 包 中 给 出 了 数据 框 形式 的 数据 ， 可 以 直接 应 用 ; 2) 访问 本 书 的 网 
站 ， 下 载 相 应 数据 的 文本 文件 ， 然 后 把 文件 读 入 到 R 中 。 很 明显 ， 第 一 
种 方式 更 实用 。 为 了 说 明 如 何 把 文本 文件 载 入 R 中 ， 我 们 同时 也 介绍 第 
二 种 方法 。 





如 果 应 用 第 一 种 简单 的 方法 ， 只 要 载 入 本 书 的 R 添 加 包 贴 ， 就 直接 
有 了 一 个 名 为 algae 的 数据 框 。 这 个 数据 框 含有 前 面 提 到 的 200 个 观测 
值 : 


> library (DMwR) 
> head(algae) 


season size speed mxPH mn02 cl NO3 NH4 oP04 P04 Chla 
1 winter small medium 8.00 9.8 60.800 6.238 578.000 105.000 170.000 50.0 
2 spring small medium 8.35 8.0 57.750 1.288 370.000 428.750 558.750 1.3 
3 autumn small medium 8.10 11.4 40.020 5.330 346.667 125.667 187.057 15.6 
4 spring small medium 8.07 4.8 77.364 2.302 98.182 61.182 138.700 1.4 
5 autumn small medium 8.06 9.0 55.350 10.416 233.700 58.222 97.580 10.5 
6 winter small high 8.25 13.1 65.750 9.248 430.000 18.250 56.667 28.4 

ai a2 a3 a4 a5 a6 a7 


aor WD & 
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的 一 种 理想 的 数据 结构 。 函 数 head() 将 显示 数据 框 的 前 6 行 。 





男 外 一 种 载 入 数据 的 方式 是 用 本 书 网 站 中 “Data”( 数 据 〉 部 分 的 文 
本 文件 。 在 “Training data” 训练 数据 〉 链 接 下 的 文件 “Analysis.txt” 中 包 
含 200 个 水 样 ， 而 在 “Test data” (测试 数据 ) 链接 下 的 文件 *Evaltxt" 中 包 
含 140 个 测试 样本 。 男 一 个 链接 下 的 文件 “Sols.txt* 包 含 140 个 测试 样本 的 
洽 类 频率 。 最 后 这 个 文件 将 用 来 测试 预测 模型 的 性 能 ， 它 在 建立 模型 时 
将 被 视 为 未 知 的 。 这 些 文件 的 每 一 行 代表 一 个 观测 值 。 在 训练 集 和 测试 
集中 ， 每 一 行 的 变量 《如 2.2 节 所 描述 ) 值 之 间 由 空格 来 分 隔 。 缺 失 值 


由 字符 串 “XXXXXXX” 来 表示 。 





我 们 需要 做 的 第 一 件 事 是 从 本 书 网 站 下 载 三 个 文件 ， 并 把 它们 存储 
在 本 地 计算 机 硬盘 的 某 个 目录 下 (最 好 存储 在 当前 运行 R 的 目录 下 ， 可 
以 在 R 命 令 行 下 用 命令 getwd(0) 来 获取 该 目录 ) 。 











把 文件 下 载 到 一 个 本 地 计算 机 目录 后 ， 束 可 以 把 文本 文 
件 “Analysis.txt" 中 的 数据 加 载 到 R 中 《训练 数据 是 指 用 来 建立 预测 模型 
的 数据 ) 。 可 以 输入 以 下 命令 把 文件 中 的 数据 读 入 到 R 中 l, 





> algae <- read.table('Analysis.txt', 

header=F, 

dec="'.', 

col.names=c('season','size','speed','mxPH' ,'mn02','Cl', 
'NO3' ,'NH4' ,'oP04' ,'P04' ,'Ch1la','ai','a2','a3','a4', 

‘et 100 a7"). 

na. strings=c ('XXXXXXX')) 


+ 十 十 十 十 十 





参数 header=F 表 示 要 读 的 文件 的 第 一 行 不 包括 变量 名 。dec='.' 指 出 
数值 使 用 .字符 分 隔 小 数位 。 这 两 个 参数 设置 可 以 省 略 ， 因 为 这 里 使 用 
了 它们 的 默认 值 。col.names 给 正在 读 取 的 变量 提供 一 个 名 称 向 量 。 最 
后 ，na.strings 表 示 该 字符 串 将 被 解释 为 未 知 值 。 这 些 值 在 R 内 部 用 NA 来 
表示 ， 如 1.2.3 节 中 所 示 。 











R 有 多 个 读 取 文本 文件 中 数据 的 函数 。 可 以 输入 “? read.table” 来 获 
得 进一步 的 信息 和 其 他 相关 函数 。 此 外 ，R 有 一 本 名 为 《R Data 
Import/Export》 的 手册 ， 该 手册 描述 了 R 从 其 他 应 用 程序 读 取 数据 的 不 
同方 法 








上 面 指令 的 结果 是 一 个 数据 框 。 数 据 框 的 每 一 行 代表 数据 集 的 一 个 
观测 值 。 例 如 ， 可 以 用 指令 algae[1: 5，] 呈 来 获得 文件 的 前 5 个 观测 
值 。 在 1.2.7 市 我 们 讲 了 在 R 中 获取 像 数 据 框 这 样 的 R 对 象 的 特定 元 素 的 
FIR 0 


[1] 由 于 该 添加 包 在 R 的 标准 安装 中 是 没有 的 ， 必 须 先 安装 它 才 能 使 用 。 
关于 添加 包 的 安装 ， 请 参见 1.2.1 节 。 
(2) ”这 里 假设 数据 文件 位 于 R 的 当前 工作 目录 中 ; 和 否则， 可 以 应 用 函数 
setwd0 来 改变 当前 工作 目录 。 在 Windows 操 作 系 统 中 ， 可 以 点 击 “ 文 

牛 ” 菜 单 下 的 “改变 工作 目录 ”选项 来 改变 R 的 当前 工作 目录 。 
[3] 这 里 也 可 以 用 前 面 介 绍 的 函数 head (algae) 得 到 相同 的 结果 。 


2.4 数据 可 视 化 和 摘要 


鉴于 没有 该 问题 领域 足够 的 信息 ， 首 先 了 解 一 些 数据 的 统计 特性 是 
一 种 较 好 的 方式 ， 它 方便 我 们 更 好 地 理解 问题 。 即 使 对 问题 有 了 充分 的 
了 解 ， 从 下 面 的 探索 性 数据 分 析 着 手 进行 分 析 也 是 一 个 不 错 的 方法 。 








获取 数据 统计 特性 的 一 个 方法 是 获取 数据 的 如 下 描述 性 统计 摘要 。 


> summary (algae) 


season size speed mxPH mn02 
autumn:40 large :45 high :84 Min. :5.600 Min. : 1.500 
spring:53 medium:84 low 233 ist Qu.:7.700 ist Qu.: 7.725 
summer :45 small :71 medium:83 Median :8.060 Median : 9.800 


winter:62 Mean 78.012 Mean : 9.118 
3rd Qu. :8.400 3rd Qu. :10.800 
Max. 79.700 Max. :13.400 
NA's :1.000 NA's : 2.000 
Cl NO3 NH4 oP04 
Min. : 0:2223: Min. : 0.050 Min. Á 5.00 Min. t 200 


ist Qu.: 10.981 ist Qu.: 1.296 ist Qu.: 38.33 ist Qu.: 15.70 
Median : 32.730 Median : 2.675 Median : 103.17 Median : 40.15 
Mean : 43.636 Mean : 3.282 Mean : 6501.30 Mean : 73.59 
3rd Qu.: 57.824 3rd Qu.: 4.446 3rd Qu.: 226.95 3rd Qu.: 99.33 


Max. :391.500 Max. 745.650 Max. :24064.00 Max. :564.60 
NA's : 10.000 NA's : 2.000 NA's : 2.00 NA's = 2.00 
P04 Chla al a2 

Min. ; 2.00 Min, : 0.200 Min. : 0.00 Min. 0.000 
ist Qu.: 41.38 ist Qu.: 2.000 ist Qu.: 1.50 ist Qu.: 0.000 
Median :103.29 Median : 5.475 Median : 6.95 Median : 3.000 
Mean 7137.88 Mean : 13.971 Mean :16.92 Mean : 7.458 
3rd Qu.:213.75 3rd Qu.: 18.308 3rd Qu.:24.80 3rd Qu.:11.375 


Max. -771.60 Max. :110.456 Max. :89.80 Max. :72.600 
NA's : 2.00 NaA's : 12.000 

a3 a4 a5 a6 
Min : 0.000 Min. : 0.000 Min. : 0.000 Min. .000 


0 0 
0.000 ist Qu.: 0.000 ist Qu.: 0.000 ist Qu.: 0.000 
Median : 1.550 Median : 0.000 Median : 1.900 Median : 0.000 
4.309 Mean : 1.992 Mean : 5.064 Mean : 5.964 

4 6 

7 


.925 3rd Qu.: 2.400 3rd Qu.: 7.500 3rd Qu.: 6.925 


Max. 742.800 Max. 744.600 Max. 744.400 Max. :77.600 
a7 
Min. : 0.000 
ist Qu.: 0.000 
Median : 1.000 
Mean : 2.495 
3rd Qu.: 2.400 
Max. 731.600 


IRS fi PTS Soe B28 H T CE Se EN a) 。 对 于 名 义 变 
量 〈R 中 用 因子 来 表示 ) ， 它 给 出 每 个 可 能 取 值 的 频数 四。 例如 ， 从 结 
果 中 可 知 冬季 采集 的 水 样 比 其 他 季 市 更 多 。 对 于 数值 变量 ，R 为 我 们 所 
供 了 均值 、 中 位 数 、 四 分 位 数 及 极 值 等 一 系列 的 统计 信息 。 这 些 统计 信 
恩 提 供 了 变量 值 分 布 的 初步 信息 后面 还 会 有 这 方面 的 分 析 〉 。 在 变量 
有 缺失 值 的 情况 下 ， 字 符 串 NA 后 面 的 数字 即 为 缺失 值 的 个 数 。 通 过 观 
察 中 位 数 和 均值 之 间 的 差异 以 及 四 分 位 距 二 ， 我 们 可 以 了 解数 据 分 布 
的 偶 度 和 分 散 情 况 。 另 外 ， 大 部 分 情况 下 ， 这 些 信息 可 以 更 好 地 用 图 形 








来 表示 出 来 。 让 我 们 看 一 个 例子 。 
> hist(algae$mxPH, prob = T) 


该 指令 将 绘制 变量 mxPH 的 直方 图 。 其 结果 如 图 2-1 所 示 。 设 置 参 数 
prob=T， 我 们 可 以 得 到 每 个 取 值 区 间 中 的 概率 ， 如 果 该 参数 设置 为 
FALSE 或 者 忽略 该 参数 ， 它 将 给 出 频数 。 





图 2-1 告 诉 我 们 ， 变 量 mxPH 的 分 布 非常 接近 正 态 分 布 ， 它 的 值 大 部 
分 聚集 在 该 变量 的 均值 周围 。 我 们 通过 使 用 Q-Q 图 来 检验 该 变量 是 否 为 
正 态 分 布 。 在 R 的 添加 包 car (Fox, 2009) 中 的 函数 qq.plotO 可 以 绘制 Q- 
Q 图 。 上 例 的 Q-Q 图 如 图 2-2 的 右 图 所 示 ， 左 图 是 一 个 略微 复杂 版 本 的 直 
方 图 。 获 取 图 2-2 的 命令 如 下 : 





Histogram of algae$mxPH 
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algae$mxPH 
图 2-1 变量 mxPH 的 直方 图 


> library(car) 
> par(mfrow=c(1,2)) 
> hist (algae$mxPH, prob=T, xlab=", 
main='Histogram of maximum pH value’, ylim=0:1) 
lines (density (algae$mxPH, na.rm=T) ) 
rug(jitter (algae$mxPH) ) 
qq.plot (algae$mxPH,main='Normal QQ plot of maximum pH') 
par (mfrow=c(1,1)) 


se A, 


载 入 R 添 加 包 car 后 中， 调用 函数 par() 设 置 R 图 形 系统 的 多 个 参数 。 
这 里 把 图 形 输出 窗口 设置 为 1 行 2 列 的 区 域 ， 这 样 可 以 在 同一 幅 图 形 中 得 


到 两 个 并 列 的 图 形 。 然 后 绘制 第 一 幅 图 形 ， 它 是 变量 mxPH 的 直方 图 ， 

这 里 它 设置 X 轴 标题 为 室 ， 然 后 改变 图 形 的 标题 ， 提 供 合理 的 Y 轴 的 范 
围 。 之 后 的 指令 绘制 平滑 版 本 的 直方 图 (变量 分 布 的 核 密度 估计 9 

) ， 而 下 一 个 命令 在 X 轴 附近 绘制 变量 的 实际 值 ， 从 而 容易 识别 离 群 点 
1 。 例 如 ， 我 们 可 以 观察 到 有 两 个 值 显著 低 于 所 有 其 他 值 。 这 种 数据 检 
得 是 非常 重要 的 ， 因 为 它 可 以 确定 数据 样本 中 可 能 出 现 的 错误 ， 甚 至 帮 
助 定 位 那些 奇怪 的 错误 值 或 者 在 后 续 分 析 中 需要 剔除 的 奇怪 值 。 图 2-2 
的 右 图 是 用 函数 qq.plotO 得 到 的 Q-Q 图 ， 生 绘制 变量 值 和 正 态 分 布 的 理 
论 分 位 数 〈 黑 色 实 线 ) 的 散 点 图 。 同 时 ， 它 给 出 正 态 分 布 的 95% 置 信 区 
间 的 带 状 图 (虚线 ) 。 从 图 2-2 右 图 可 知 ， 变 量 有 几 个 小 的 值 明显 在 95% 
置信 区 间 之 外 ， 它 们 不 服从 正 态 分 布 。 














注意 ， 上 例 大 量 应 用 了 函数 复合 ， 一 个 函数 的 结果 调用 为 一 个 函 
数 。 当 不 理解 这 些 函 数 复合 时 ， 可 以 每 次 调用 一 个 函数 ， 分 别 理解 它 的 
输出 。 





下 面 的 指令 给 出 了 为 一 个 数据 检 醋 的 例子 ， 它 用 来 检 醋 变量 
oPO4: 


Histogram of maximum pH value Normal QQ plot of maximum pH 
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norm quantiles 


图 22 变量 MxPH 的 直方 图 的 “丰富 ”版 本 (AB) 以 及 Q-Q 图 (A 
图 ) 


> boxplot (algae$oP04, ylab = "Orthophosphate (oP04)") 
> rug(jitter(algae$oP04), side = 2) 
> abline(h = mean(algae$oP04, na.rm = T), lty = 2) 


第 一 条 指令 绘制 变量 oPO4 的 箱 图 。 箱 图 能 快速 提供 变量 分 布 的 一 
些 关 键 属性 的 摘要 。 箱 图 框 的 边界 代表 变量 的 第 一 个 四 分 位 数 和 第 三 个 
四 分 位 数 ， 而 框 内 的 水 平 线 是 变量 的 中 位 数 。 设 r 是 变量 的 四 分 位 距 ， 
箱 图 上 方 的 小 横 线 是 小 于 或 等 于 第 三 个 四 分 位 数 加 1.5xr 的 最 大 的 观测 
值 ， 而 箱 图 下 方 的 小 横 线 是 大 于 或 等 于 第 一 个 四 分 位 数 减 去 1.5xr 的 最 小 
的 观测 值 。 箱 图 上 方 小 模 线 上 面 或 者 下 方 小 模 线 下 面 的 小 圆 峰 表示 与 其 




















他 值 相 比特 别 大 或 者 特别 小 的 值 ， 通 音 认 为 是 离 群 值 。 这 意味 着 箱 图 给 
出 大 量 的 信息 ， 它 不 仅 给 出 了 变量 的 中 心 趋势 ， 也 给 出 了 变量 的 发 散 情 
况 和 离 群 值 。 


第 二 条 指令 在 前 面 已 经 描述 过 了 〔 唯 一 的 区 别 是 数据 绘制 的 位 置 不 
同 ) ， 而 第 三 条 指令 使 用 abline0 在 变量 的 均值 位 置 绘制 一 条 水 平 线 [9 
， 均 值 由 函数 mean0 计 算 。 将 均值 线 和 箱 图 内 的 分 位 数 线 进行 比较 ， 就 
可 以 知道 变量 的 多 个 离 群 值 使 得 作为 变量 中 心 〈 即 变量 的 大 部 分 取 值 ) 
的 均值 产生 了 扭曲 。 








图 2-3 的 分 析 说 明 ， 变 量 oPO4 的 分 布 集中 在 较 小 的 观测 值 周 围 ， 因 
此 分 布 为 正 偏 。 大 部 分 水 样 的 oPO4 值 比较 低 ， 但 也 有 几 个 水 样 的 观测 
值 较 高 ， 甚 至 特别 高 。 

有 了 时， 当 有 离 群 值 时 ， 需 要 确定 那些 有 离 群 值 的 观测 。 这 里 给 出 两 
种 方法 。 一 种 方法 是 图 形 方法 。 如 采 绘 制 变 量 NH4 的 值 ， 将 会 注意 到 一 
个 特别 大 的 值 。 我 们 可 以 用 下 列 方 式 识别 特大 值 相应 的 水 样 : 





> plot (algae$NH4, xlab = "") 

> abline(h = mean(algae$NH4, na.rm = T), lty = 1) 

> abline(h = mean(algae$NH4, na.rm = T) + sd(algae$NH4, na.rm = T), 
+ lty = 2) 

> abline(h = median(algae$NH4, na.rm = T), lty = 3) 

> identify (algae$NH4) 





第 一 条 指令 绘制 变量 的 所 有 值 ， 调 用 函数 abline() 绘 制 三 条 有 用 的 直 


线 : 第 一 条 为 均值 ， 第 二 条 为 均值 加 1 个 标准 差 ， 第 三 条 为 中 位 数 。 对 
于 离 群 值 的 识别 ， 尽 管 这 三 条 线 不 是 必需 的 ， 但 是 它们 能 提供 变量 的 有 
用 信息 。 最 后 一 条 指令 是 交互 式 的 ， 它 多 许 用 户 单 击 图 形 中 的 点 虽 。 
对 于 每 一 个 单 击 的 点 ，R 将 写 下 该 点 在 algae 数 据 框 中 的 行 号 。 用 户 可 以 
右 击 来 结束 交互 。 














Orthophosphate (oPO4) 





图 23 变量 oPO4 箱 图 的 “丰富 ”版 本 





如 果 需 要 检查 algae 数 据 框 中 对 应 于 图 形 中 的 离 群 值 的 观测 记录 ， 最 
好 的 方式 是 执行 如 下 命令 : 
> plot(algae$NH4, xlab = "") 


> clicked.lines <- identify(algae$NH4) 
> algae[clicked.lines, ] 


正如 你 所 猜测 的 那样 ， 函 数 identify0O 给 出 对 应 于 图 形 中 单 击 的 点 的 
了 写 ， 利 用 这 点 对 algae 数 据 框 进行 案 引 ， 可 以 获取 这 些 观 测 值 的 所 有 信 
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im 4 


也 可 以 不 用 图 形 方 式 进行 以 上 的 检查 ， 如 下 所 示 : 
> algaefalgaegNH4 > 19000, ] 


该 指令 给 出 了 另 一 种 索引 数据 框 的 方式 ， 即 应 用 逻辑 表达 式 来 选 定 
本 《更 多 的 例子 请 参见 1.2.7 节 ) 。 这 条 指令 的 输出 结果 可 能 看 起 来 有 点 
奇怪 。 原 因 是 变量 NH4 的 有 些 观 测 值 为 NA 值 ， 这 时 R 不 知道 比较 的 结 
果 ， 因 此 给 出 了 NA。 为 了 避免 这 种 情况 ， 可 以 应 用 指令 
algae[lisna (algae$NH4) &algae$NH4> 之 19000，]。 调 用 函数 is.na0 将 产 
生 一 个 布尔 值 TRUE 或 者 FALSE) 向 量 。 当 NH4 的 值 为 NA 时 ， 向 量 的 
相应 值 为 TRUE， 这 个 向 量 元 素 的 个 数 和 数据 框 algae 的 行 数 相同 。 表 达 
式 ! is.na Calgae$NH4) 返回 一 个 布尔 值 问 量 ， 因 为 *! ”是 逻辑 否 运 
算 ， 所 以 对 应 数据 框 中 变量 NH4 的 值 为 已 知 的 行 的 位 置 的 值 为 TRUE。 
总 之 ， 这 种 索引 方式 将 给 出 那些 数据 框 中 变量 NH4 取 值 已 知 并 且 大 于 
19000 的 行 。 


NN 











下 面 给 出 几 种 其 他 类 型 的 数据 检查 的 例子 。 这 些 例子 应 用 R 的 添加 
lattice (Sarkar, 2010) ，lattice 包 提供 了 大 量 优秀 的 图 形 工 具 ， 这 些 


图 形 工 具 实 现 了 Trellis 图 形 (Cleveland，1993) 的 思想 。 


假设 需要 研究 海 兴 变量 al 的 值 的 分 布 。 可 以 应 用 上 面 讨论 的 任何 方 
法 。 然 而 ， 如 果 这 里 需要 研究 分 布 如 何 依赖 于 其 他 变量 ， 就 需要 新 的 工 
Ha 


> 











条 件 绘图 是 依赖 于 茶 个 特定 因子 的 图 形 表 示 。 因 于 是 一 个 取 值 为 有 
限 集合 的 名 义 变量 。 例 如 ， 对 于 变量 size 的 不 同 取 值 ， 可 以 绘制 变量 al 
的 一 组 箱 图 (如 图 2-4 所 示 〉。 每 个 箱 图 是 对 应 于 变量 size 的 茶 个 特定 值 
的 水 样子 集 。 通 过 这 些 箱 图 可 以 研究 名 义 变量 size 如 何 影 响 变量 al 值 的 
分 布 。 绘 制图 2-4 中 箱 图 的 命令 如 下 : 








> library (lattice) 
> bwplot(size ~ al, data=algae, ylab='River Size',xlab='Algal A1') 
上 面 的 第 一 条 指令 载 入 lattice 包 。 第 二 条 指令 绘制 这 些 图 ]attice 版 本 
的 箱 图 ， 这 条 指令 可 以 读 做 : 对 变量 size 的 每 个 值 绘制 a1。 其 他 参数 的 
意义 显而易见 。 





从 图 2-4 可 知 ， 在 规模 较 小 的 河流 中 ,海棠 al 的 频率 较 遍 ， 这 是 很 
有 用 的 信息 。 
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图 2-4 海 荣 变量 al 的 条 件 箱 图 


这 种 箱 图 的 妨 外 一 个 类 型 是 分 位 箱 图 ， 它 可 以 给 出 所 绘制 变量 的 更 
多 信息 。R 添 加 包 Hmisc 可 以 绘制 分 位 箱 图 。 下 面 绘制 上 面 例子 中 al 变 
量 的 条 件 分 位 箱 图 : 
> library (Hmisc) 
> bwplot(size ~ al, data=algae,panel=panel.bpplot, 


+ probs=seq(.01,.49,by=.01), datadensity=TRUE, 
+ ylab='River Size',xlab='Algal A1') 


上 面 命令 的 输出 结果 如 图 2-5 所 示 。 图 2-5 中 的 点 代表 不 同 大 小 的 河 


流 中 海 兴 频数 的 均值 ， 而 图 中 的 紧 线 分 别 代表 变量 的 第 一 个 分 位 数 、 中 
位 数 和 第 三 个 分 位 数 。 图 2-5 中 的 小 竖 线 代表 数据 的 真实 取 值 ， 这 些 值 
的 分 布 信息 则 由 分 位 数 图 来 体现 。 分 位 数 箱 图 提供 的 信息 要 多 于 图 2-4 
所 示 的 传统 箱 图 的 信息 。 例 如 ， 我 们 可 以 确认 上 面 的 观测 结论 :小 型 的 
河流 有 更 局 频率 的 海 汪 ， 但 我 们 也 观察 到 小 型 河流 的 海藻 频率 的 分 布 比 
其 他 类 型 河流 的 海 兴 频率 的 分 布 分 散 。 





这 种 类 型 的 条 件 绘图 不 局 限于 名 义 变量 ， 也 不 局 限于 单个 因子 。 只 
要 先 把 连续 变量 “离散 化 "， 也 同样 可 以 进行 条 件 绘图 。 下 面 给 出 一 个 两 
个 因子 的 条 件 绘 图 的 例子 。 考 虑 变量 a3 在 给 定 变 量 season 和 变量 mnO2 下 
的 条 件 绘 图 ， 变 量 mnO2 是 一 个 连续 变量 ， 绘 图 代码 如 下 所 示 : 








> min02 <- equal.count (na. omit (algae$mn02), 


+ number=4, overlap=1/5) 
> stripplot(season ~ a3/min02, 
+ data=algae[!is.na(algae$mn02) ,]) 


以 上 代码 得 到 的 图 形 输出 如 图 2-6 所 示 。 


上 面 代码 的 第 一 行 是 调用 函数 equal.count(0) 对 连续 变量 mnO2 离 散 
化 ， 把 该 变量 转换 为 因子 类 型 。 参 数 number 设 置 需要 的 区 间 个 数 ， 参 数 
overlap 设 置 两 个 区 间 之 间 的 靠近 边界 的 重合 (这 意味 着 某 些 观测 值 将 被 
分 配 到 相 邻 的 区 间 中 ) 。 每 个 区 间 的 观测 值 的 个 数 相等 。 注 意 ， 变 量 
algae$mnO2 中 含有 NA 值 ， 所 以 上 面 的 指令 中 没有 直接 应 用 该 变量 ， 否 














则 会 导致 其 后 的 绘图 函数 出 错 。 函 数 na.omitO 可 以 用 来 剔除 向 量 中 的 任 
何 NA 值 上 1 。 
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图 25 海 当 变量 al 的 条 件 分 位 数 箱 图 





图 2-6 海 荣 变量 a3 的 条 件 箱 图 


AK — 4 


第 二 行 调用 绘图 函数 stripplot()， 该 函数 是 lattice 包 中 的 一 个 绘图 函 
数 ， 它 根据 男 一 个 变量 (这 里 是 season〉 把 变量 的 实际 值 绘制 到 不 同 的 
图 形 中 。 然 后 对 变量 mnO2 的 每 个 不 同 的 区 间 绘 制 不 同 的 图 形 。 这 些 区 
间 按 照 从 左 到 右 、 从 下 到 上 的 顺序 来 排列 。 即 与 左下 方 的 图 形 相对 应 的 
是 较 小 的 mnO2 值 上 。 变 量 mnO2 中 的 NA 值 也 会 对 图 形 的 绘制 产生 影 
啊 。 不 能 像 绘制 图 2-4 那 样 直 接应 用 参数 data=algae， 而 应 该 先 别 除 水 样 
中 变量 mnO2 含 有 NA 值 的 行 。 





数据 摘要 和 可 视 化 的 参考 文献 


大 多 数 标准 的 统计 教科 书 都 含有 数据 汇总 的 内 容 。 一 本 较 简 单 的 、 
很 好 的 统计 书籍 是 Chatfield (1983) 的 《Statistics for Technology》 。 该 书 
的 例子 简单 并 很 能 说 明 问题 。 另 外 一 本 好 的 参考 书籍 是 
Dalgaard (2002) 49 «Introductry Statistics with R》。 对 于 数据 可 视 化 ， 
必需 的 一 本 参考 书 是 Cleveland (1993) 的 《Visualizing Data》， 这 时 一 本 
物 有 所 值 的 优秀 书籍 。 另 外 一 本 后 续 的 更 正式 的 书籍 是 《The Elements 
of Graphing Data》 (Cleveland, 1995) 。 一 本 更 新 的 优秀 书籍 是 Chen 等 
(2008) 编著 的 《Data Visualization》。 最 后 ，Murrell (2006) 的 《R 
Graphics》 则 更 是 一 本 全 部 有 关 R 软 件 绘图 的 书籍 。 


11] ”应 用 添加 包 Hmisc 中 的 员 数 describe0 也 可 以 得 到 类 似 的 结果 (Hatrell 
Jr, 2009) 。 

D] 事实 上 ， 如 果 有 太 多 的 取 值 ， 则 只 显示 出 现 频次 最 高 的 几 个 取 值 。 
[3] 如 果 把 变量 的 取 值 按照 从 小 到 大 的 顺序 排列 ，25% 的 取 值 小 于 第 一 个 
四 分 位 数 ， 而 75% 的 数值 小 于 第 三 个 四 分 位 数 ， 因 此 在 第 一 个 四 分 位 数 
和 第 三 个 四 分 位 数 之 间 的 数值 个 数 为 50%。 四 分 位 距 是 第 三 个 四 分 位 数 
和 第 一 个 四 分 位 数 的 差 值 ， 它 可 以 衡量 变量 与 其 中 心 值 的 偏离 程度 ， 该 
值 越 大 说 明 偏离 越 大 。 

[和 ”直方 图 的 条 形 的 面积 之 和 应 该 为 1 (而 不 是 某 些 人 认为 的 条 形 的 高 
度 ) 。 

[5] 这 里 应 用 函数 libtrary0 来 载 入 添加 包 时 要 注意 ， 该 添加 包 必 须 预 先 安 


装 在 你 的 计算 机 中 。 否 则 ，R 会 报错 ， 这 时 ， 需 要 用 1.2.1 节 中 给 出 的 方 


法 来 先 安装 该 添加 包 。 

| 在 许多 函数 中 ， 设 置 参数 “hatm=T” 是 说 明 在 函数 的 计算 中 不 考虑 
NA 值 。 在 多 个 函数 中 ， 这 种 设置 是 必需 的 ， 因 为 它 不 是 这 些 函 数 的 默 
认 设 置 。 否 则 ， 将 会 出 现 错误 。 
[7] 事实 上 ， 这 里 有 两 个 函数 调用 。 函 数 rug0 执 行 绘图 ， 而 函数 jitter0 对 
要 绘制 的 原始 值 略微 进行 随机 排列 ， 这 就 避免 了 两 个 值 相等 的 可 能 性 ， 
因而 避免 了 两 个 标记 重合 在 一 起 而 导致 可 视 化 检查 时 一 些 值 被 “ 掩 


[8] 用 参数 lty=2 来 设置 线 型 为 虚线 。 

[9] 鼠标 单 击 的 相对 于 点 的 位 置 将 决定 R 把 行 号 写 在 哪 一 边 。 例 如 ， 如 果 
在 点 的 右边 单 击 ， 行 号 将 写 在 点 的 右边 。 

[10] 在 后 面 的 2.5 节 将 给 出 另 一 种 更 好 的 解决 方案 。 

[11] 可 以 打印 所 创建 的 变量 离散 化 版 本 来 查看 创建 的 区 间 的 实际 值 。 


2.5 数据 缺失 


在 许多 水 样 中 ， 一 些 变 量 含 有 缺失 值 。 这 种 情形 在 现实 问题 中 非常 
普遍 ， 这 会 导致 一 些 不 能 处 理 缺 失 值 的 分 析 方 法 无 法 应 用 。 





当 我 们 处 理 含 有 人 缺失 值 的 数据 时 ， 可 以 运用 以 下 几 种 最 常见 的 策 
BS: 


将 含有 缺失 值 的 案例 剔除 。 





根据 变量 之 间 的 相关 关系 填补 缺失 值 。 
根据 采 例 之 间 的 相似 性 填补 缺失 值 。 
使 用 能 够 处 理 缺 失 值 数据 的 工具 。 


最 后 一 种 方式 是 最 严格 的 ， 因 为 它 限定 了 我 们 可 以 使 用 的 工具 。 然 
而 ， 当 对 这 些 可 以 处 理 缺 失 值 的 数据 挖掘 工具 有 信心 时 ， 它 们 可 能 是 一 
个 好 的 选择 。 在 下 面 的 章节 中 ， 我 们 将 通过 举例 来 演示 如 何在 R 中 实现 
上 述 处 理 缺 失 值 的 方法 。 如 果 你 决定 试 一 试 本 书 中 给 出 的 代码 ， 你 需要 
了 解 它 们 不 是 互相 补充 的 。 由 于 每 节 都 用 不 同 的 方法 来 处 理 这 些 数据 ， 
这 意味 着 当 你 选择 用 其 他 方式 来 处 理 这 些 缺 失 值 时 ， 需 要 重新 读 取 含 有 
所 有 缺失 值 的 原始 数据 。 重 新 读 取 数 据 的 代码 如 下 : 














> library (DMwR) 
> data(algae) 


2.5.1 将 缺失 部 分 剔除 





剔除 含有 缺失 数据 的 记录 非常 容易 实现 ， 无 其 是 当 这 些 记录 所 占 的 
比例 在 可 用 数据 集中 非常 小 的 时 候 ， 这 个 选择 就 比较 合理 。 


在 别 除 菏 些 变量 中 至 少 含 有 一 个 缺失 数据 的 所 有 观 训 值 时 ， 基 好 移 
检查 观测 值 ， 或 者 至 少 得 到 这 些 观测 值 的 个 数 ， 例 如 : 





> algae[!complete.cases (algae) ,] 


> nrow(algae[! complete. cases (algae) ,]) 


[1] 16 


函数 complete.cases0) 产 生 一 个 布尔 值 铝 量 ， 该 癌 量 的 元 素 个 数 与 
algae 数 据 框 中 的 行 数 相 同 ， 如 果 数 据 框 的 相应 行 中 不 含 NA 值 〈 即 为 一 
个 完整 的 观测 值 》》， 函 数 返 回 值 就 是 TURE。 前 面 提 到 过 “! ”运算 符 ， 
它 是 取 逻 辑 否 ， 因 此 上 述 指令 显示 了 含有 缺失 值 的 水 样 记录 。 





为 了 从 数据 框 中 剔除 这 16 个 样本 ， 我 们 可 以 简单 地 输入 : 


> algae <- na.omit(algae) 


即使 我 们 决定 不 使 用 剔除 所 有 包含 缺失 值 记 录 的 极端 方法 ， 我 们 也 
可 以 剔除 某 些 观测 值 。 因 为 这 些 样本 的 缺失 值 太 多 ， 所 以 它们 几乎 是 无 
用 的 样本 ， 如 果 采 用 复杂 的 方法 来 填补 缺失 值 ， 就 会 导致 较 大 偏差 。 需 
要 注意 的 是 ， 如 果 执 行 了 前 面 的 命令 ， 你 需要 重新 读 取 数 据 ， 因 为 这 个 
指令 已 经 剔除 了 所 有 缺失 数据 ， 所 以 接 下 来 的 命令 就 没有 意义 ! 观察 
个 样本 中 的 数据 ， 我 们 可 以 看 到 第 62 条 和 第 199 条 记录 中 的 11 个 解释 变 
量 有 6 个 是 缺失 值 。 在 这 种 情况 下 ， 最 好 是 剔除 它们 : 

















> algae <- algae[-c(62, 199), J 











在 有 些 问 题 中 ， 由 于 大 量 记录 中 含有 缺失 值 ， 用 上 面 的 观察 方法 来 
检查 数据 的 缺失 值 是 不 可 行 的 ， 所 以 需要 找 出 缺失 值 较 多 的 样本 所 在 的 
行 。 下 面 的 代码 可 以 找 出 海河 数据 集中 每 行 数据 的 缺失 值 个 数 : 


> apply(algae, 1, function(x) sum(is.na(x))) 


函数 applyO 属 于 R 中 功能 非常 强大 的 一 类 函数 。 这 类 函数 又 称 为 元 
函数 ， 它 们 可 以 在 某 些 条 件 下 对 对 象 应 用 其 他 函数 。 对 函数 apply0) 而 
言 ， 它 可 以 把 任何 其 他 函数 应 用 到 一 个 多 维 对 象 的 各 个 维度 上 。 使 用 函 
数 applyO 时 ， 它 把 一 个 函数 应 用 到 数据 框 趾 的 每 一 行 。 这 个 被 应 用 的 函 
数 在 apply0 函 数 的 第 三 个 参数 中 给 出 ， 对 数据 框 的 每 一 行 都 分 别 调用 该 








函数 。 在 这 个 案例 中 我 们 使 用 一 个 临时 函数 。 它 只 在 调用 applyO 函 数 时 
才 存 在 。 另 外 ， 函 数 apply0 的 第 三 个 参数 也 可 以 是 一 个 “正常 ?函数 的 函 

数 名 。 临 时 函数 的 功能 是 计算 对 象 x 中 NA 的 数量 。 在 R 中 逻辑 值 TURE 
等 于 数值 1， 风 辑 值 FALSE 等 于 数值 0O， 这 意味 着 当 加 一 个 布尔 值 癌 量 
时 ， 得 到 向 量 中 取 值 为 TURE 的 元 素 的 个 数 。 











根据 以 上 代码 ， 可 以 编写 一 个 程序 找 出 algae 中 含有 给 定数 目 缺失 值 
的 行 。 在 本 书 提供 的 添加 包 中 有 这 个 函数 。 可 以 如 下 应 用 该 函数 : 


> data(algae) 
> manyNAs(algae, 0.2) 


[1] 62 199 


AA TE HI REPAIR SRR WIS LIT a Ja hes BE ed FPR 
data0。 函 数 manyNAsO 的 功能 是 找 出 缺失 值 个 数 大 于 列 数 20% 的 行 。 在 
第 二 个 参数 中 可 以 设置 一 个 精确 的 列 数 作为 界限 。 因 此 ， 用 下 面 的 代码 
就 无 须知 道 含 有 缺失 值 较 多 的 行 的 具体 数量 : 





> algae <- algae[-manyNAs(algae), ] 


在 这 个 案例 中 我 们 应 用 了 manyNAsO0， 函 数 第 二 个 参数 的 默认 值 为 


[第 二 个 参数 中 的 “1 表示 第 一 个 参数 中 的 对 象 的 第 一 个 维度 ， 即 数 


据 框 的 行 数 据 。 





2.5.2 ”用 最 高 频率 值 来 填补 缺失 值 


填补 含有 缺失 值 记 录 的 男 一 个 方法 是 尝试 找到 这 些 缺 失 值 最 可 能 的 
值 。 同 样 ， 这 里 有 多 种 策略 可 供 选 择 ， 不 同 策略 对 逼近 程度 和 算法 复杂 
度 的 权衡 不 同 。 


填补 缺失 数据 最 简便 和 快捷 的 方法 是 使 用 一 些 代表 中 心 趋势 的 值 。 
代表 中 心 趋势 的 值 反 映 了 变量 分 布 的 最 常见 值 ， 因 此 中 心 趋势 值 是 最 自 
然 的 选择 。 有 多 个 代表 数据 中 心 趋势 的 指标 ， 例 如 平均 值 、 中 位 数 、 众 
数 等 。 最 合适 的 选择 由 变量 的 分 布 决定 。 对 于 接近 正 态 的 分 布 来 说 ， 所 
有 的 观测 值 都 较 好 地 聚集 在 平均 值 周围 ， 平 均值 数 就 是 最 佳 选择 。 然 
而 ， 对 于 偏 态 分 布 ， 或 者 有 离 群 值 的 变量 来 说 ， 选 择 平 均值 就 不 好 。 偶 
态 分 布 的 大 部 分 值 都 聚集 在 变量 分 布 的 一 人 出， 因此 平均 值 不 能 作为 最 向 
见 值 的 代表 。 另 一 方面 ， 离 群 值 〈( 极 值 ) 的 存在 会 扭曲 平均 值 趾 ， 这 
就 导致 了 平均 值 不 具有 代表 性 的 问题 。 因 此 ， 在 对 变量 分 布 进行 检查 之 
前 选择 平均 值 作为 中 心 趋 势 的 代表 是 不 明智 的 ， 例 如 ， 某 些 R 的 绘图 工 
共 《〈 见 图 2-2) 。 对 偶 态 分 布 或 者 有 离 群 值 的 分 布 而 言 ， 中 位 数 是 更 好 
的 代表 数据 中 心 趋势 的 指标 。 





























比如 ， 样 本 algae[48，] 中 的 变量 mxPH 有 缺失 值 。 由 于 该 变量 分 布 
近似 正 态 分 布 ( 见 图 2-2〉 ， 我 们 可 以 选用 平均 值 来 填补 这 个 “ 洞 ”， 计 





算 方法 如 下 : 
> algae[48, "mxPH"] <- mean(algae$mxPH, na.rm = T) 


这 里 ， 函 数 mean() 计 算数 值 向 量 的 平均 值 ， 参 数 na.rm=T 使 计算 时 
忽略 缺失 数据 A 。 





大 多 数 时 候 采 用 一 次 填补 一 列 中 的 所 有 人 缺失 值 而 不 是 像 上 面 那样 一 
行 一 行 地 逐个 填补 。 以 变量 Chla 为 例 ， 这 个 变量 在 第 12 行 上 有 人 缺失 值 。 
另外 ， 这 也 是 平均 值 不 能 代表 大 多 数 变 量 值 的 一 种 情况 。 事 实 上 ，Chla 
的 分 布 偏向 于 较 低 的 数值 ， 并 且 它 有 几 个 极端 值 ， 这 些 都 使 得 平均 值 
(13.971) 不 能 代表 大 多 数 的 变量 值 。 因 此 ， 我 们 使 用 中 位 数 来 填补 这 
一 类 的 缺失 值 : 





> algaefis.na(algae$Chla), "Chla"] <- median(algae$Chla, na.rm = T) 





本 书 插件 包 中 提供 的 函数 centralImputation0 可 以 用 数据 的 中 心 趋势 
值 来 填补 数据 集 的 所 有 缺失 值 。 对 数值 型 变量 ， 该 函数 用 中 位 数 ， 对 名 
义 变 量 ， 它 采用 众 数 。 该 函数 的 应 用 如 下 : 
> data(algae) 


> algae <- algae{-manyNAs(algae), ] 
> algae <- centralImputation (algae) 


由 于 缺失 值 的 存在 会 导致 菜 些 方法 不 能 使 用 ， 所 以 使 用 上 面 的 方法 


填补 缺失 值 通常 也 认为 不 是 很 好 的 方法 。 虽 然 上 述 的 简单 方法 速度 快 ， 
特别 适用 于 大 数据 集 ， 但 是 它 可 能 导致 较 大 的 数据 偶 兰 ， 影 响 后 期 的 数 
气 分 析 工 作 。 然 而 ， 使 用 无 侦 方 法 来 寻找 最 佳 数据 填补 值 复 杂 ， 对 于 大 
型 数据 挖掘 问题 可 能 并 不 适用 。 











[1] 向 量 c (1.2, 1.3, 0.4, 0.6, 3, 15) 的 均值 是 3.583。 
2] 因为 原始 数据 在 该 列 中 有 缺失 值 ， 如 果 不 设 定 参 数 hatm= 工 ， 得 到 的 


结果 将 是 NA。 


2.5.3 ”通过 变量 的 相关 关系 来 填补 缺失 值 








男 一 种 获取 缺失 值 较 少 偏差 估计 值 的 方法 是 探寻 变量 之 间 的 相关 关 
系 。 比 如 ， 通 过 变量 值 之 间 的 相关 关系 ， 能 够 发 现 作 变量 与 mxPH 高 度 
相关 。 这 可 以 使 我 们 得 到 含有 缺失 值 的 第 48 条 样本 的 更 可 能 的 填补 值 。 
这 比 之 前 使 用 平均 值 的 方法 将 更 胜 一 筹 。 





应 用 如 下 命令 来 得 到 变量 间 的 相关 值 : 


> cor(algae[, 4:18], use = "complete.obs") 








PR Bcor() eE ERE A EL EB CAV 31S 30 EE 
名 义 变量 ， 所 以 计算 相关 值 时 不 考虑 它们 ) 。 设 定 参数 
use="complete.obs" 时 ，R 在 计算 相关 值 时 忽略 含有 NA 的 记录 。 相 关 值 在 
1 (或 -1) 周围 表示 相应 的 两 个 变量 之 间 有 强 正 (或 负 ) 线性 相关 关 
系 。 然 后 其 他 R 函 数 可 以 得 到 变量 间 线 性 相关 的 近似 函数 形式 ， 它 可 以 
让 我 们 通过 一 个 变量 的 值 计 算出 另 一 个 变量 的 值 。 





函数 corO 的 输出 结果 并 不 是 很 清晰 ， 但 可 以 通过 函数 symnum(0) 来 改 
善 结果 的 输出 形式 ， 例 如 : 


> symnum(cor(algae[,4:18],use="complete.obs")) 


mP mO Ci NO NH o P Ch al a2 a3 a4 a5 a6 a7 
mxPH 1 


a7 1 
attr(,"legend") 
it O27 * 6,3-*." O68 °. 6.8 GS “es 6.96 B 1 


IO FF S26 aN A ET A BT, EI ET PKA 
阵 。 





在 本 案例 的 数据 中 ， 大 多 数 变量 之 间 是 不 相关 的 。 然 而 ， 有 两 个 例 
Sh: 变量 NH4 和 NO3 之 间 ， 变 量 PO4 和 oPO4 之 间 。 后 两 个 变量 之 间 的 相 
关 值 很 高 (大 于 0.9) 。 变 量 NH4 和 NO3 之 间 的 相关 性 不 是 特别 明显 (为 
0.72) ， 因 此 根据 它们 来 确定 缺失 数据 是 危险 的 。 此 外 ， 因 为 样本 62 和 
样本 199 有 太 多 的 变量 含有 缺失 值 ， 所 以 如 果 剔 除 它们 ， 样 本 中 的 变量 























NH4 和 NO3 就 没有 缺失 值 了 。 至 于 变量 PO4 和 oPO4， 它 们 之 间 相 关 性 H 
可 以 帮助 填补 这 两 个 变量 的 缺失 值 。 为 了 达到 这 个 目标 ， 我 们 需要 找到 
这 两 个 变量 之 间 的 线性 相关 关系 ， 方 法 如 下 : 





> data(algae) 
> algae <- algae[-manyNAs(algae), J 
> 1m(P04 ~ oP04, data = algae) 


Call: 
lm(formula = P04 ~ oP04, data = algae) 


Coefficients: 
(Intercept) oP04 
42.897 1.293 


函数 Im() 可 以 用 来 获取 形 如 Y=Bo +B, xi +.…..+B, Xn 的 线性 模型 。 
2.6 节 将 有 具体 讲述 该 函数 。 线 性 模型 是 ，PO4=42.897+1.293xoPO4。 如 果 
这 两 个 变量 不 是 同时 有 缺失 值 ， 那 么 可 以 通过 这 个 公式 计算 这 些 变量 的 
缺失 值 。 





在 剔除 样本 62 和 样本 199 后 ， 还 剩 下 一 个 样本 《样本 28) 在 变量 
PO4 上 有 缺 失 值 ， 可 以 简单 地 使 用 上 面 的 线性 关系 计算 缺失 值 的 填补 
值 ; 





> algae{28, "P04"] <- 42.897 + 1.293 * algae[28, "oP04"] 








然而 ， 为 了 说 明 这 个 方法 ， 我 们 假设 变量 PO4 有 多 个 缺失 值 。 如 何 
使 用 上 述 的 线性 关系 计算 所 有 的 缺失 值 呢 ? 最 好 的 方法 是 构造 一 个 函 


数 ， 它 可 以 根据 给 定 的 oPO4 的 值 计算 PO4 的 值 ， 然 后 对 所 有 缺失 值 应 用 
个 函数 。 


> data(algae) 

> algae <- algae[-manyNAs (algae), ] 
> fillP04 <- function(oP) { 

+ if (is.na(oP)) 

+ 


return (NA) 
+ else return(42.897 + 1.293 * oP) 
£F 
> algae[is.na(algae$P04), "P04"] <- sapply(algae[is.na(algae$P04), 
+ "oP04"], fillP04) 


上 面 代 码 创建 了 一 个 叫做 fllPO40 的 函数 ， 该 函数 有 一 个 参数 来 接 
收 变量 oPO4 的 值 。 给 定 oPO4 的 值 ， 这 个 函数 将 根据 得 到 的 线性 关系 
(HA fillPO4 (6.5) ”语句 ) 计算 变量 PO4 的 值 。 然 后 ， 将 这 个 函数 应 
用 到 变量 PO4 有 缺失 值 的 所 有 样本 。 这 个 过 程 可 以 通过 另 一 个 元 函数 
sapply0 来 实现 。 函 数 sapply0 的 第 一 个 参数 是 一 个 向 量 ， 第 二 个 参数 为 
一 个 函数 。 结 果 是 另 一 个 向 量 ， 该 向 量 和 第 一 个 参数 有 相同 的 长 度 ， 元 
素 为 第 二 个 参数 中 的 函数 应 用 到 第 一 个 参数 中 向 量 的 每 一 个 元 素 后 得 到 
的 结果 。 这 意味 着 sapply0 的 结果 将 是 填补 变量 PO4 缺 失 值 的 癌 量 。 最 后 

一 条 赋值 语句 是 使 用 函数 复合 的 另 一 个 例子 。 事 实 上 ， 它 等 价 于 先 用 函 
His. — 吉 果 对 数据 框 的 行进 行 索 引 ， 然 后 对 选择 结果 的 每 一 个 元 素 

函数 sapply0 应 用 水 数 们 1PO4()。 





对 线性 关系 的 研究 使 我 们 能 够 填充 一 些 新 的 缺失 值 。 然 而 ， 还 有 几 
个 观测 值 含 有 缺失 值 。 可 以 试看 探索 案例 数据 中 含有 缺失 值 的 变量 和 名 
义 变量 之 间 的 关系 。 这 可 以 通过 应 用 R 添 加 包 1lattice 中 的 函数 来 绘制 条 件 
直方 图 来 进行 。 如 图 2-7 所 示 ， 绘 图 的 代码 如 下 : 





> histogram(“mxPH | season, data = algae) 
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图 2-7 在 变量 season 条 件 下 的 变量 mxPH 的 直方 图 





上 面 代码 绘制 在 不 同 季节 变量 mxPH 的 直方 图 。 每 个 直方 图 对 应 于 
某 个 季节 的 观测 值 数据 。 注 意 ， 图 2-7 中 的 季节 顺序 不 是 按照 自然 的 时 








间 顺 序 ， 可 以 转换 数据 框 中 因子 季节 标签 的 顺序 ， 这 样 可 以 使 图 形 中 的 
季 市 值 为 自然 时 间 顺 序 。 代 码 如 下 : 


> algae$season <- factor(algae$season, levels = c("spring", 
+ "summer", "autumn", “winter")) 


默认 情况 下 ， 当 把 名 义 变量 的 值 转换 为 因子 时 ， 参 数 levels 假 定 因 
子 的 水 平 值 按照 字母 顺序 排列 。 在 本 案例 中 ， 需 要 因子 水 平 的 不 同 顺序 
《 即 季 节 的 时 间 顺 序 ) ， 所 以 在 因子 函数 中 需要 指定 因子 水 平 的 排序 方 
式 。 试 着 执行 以 上 命令 ， 得 到 新 输出 的 直方 图 后 ， 看 看 有 什么 不 同 。 











注意 ， 图 2-7 中 的 直方 图 十 分 类 似 ， 因 此 收集 样本 时 该 年 的 季节 对 
变量 mxPH 的 值 没 有 显著 影响 。 如 果 对 河流 的 大 小 《变量 size) 进行 上 面 
类 似 的 分 析 ， 执 行 指令 histogram (~mxPH|size,data=algae) ， 那 么 从 得 
到 的 直方 图 中 可 知 较 小 的 河流 有 较 小 的 mxPH 值 。 对 这 种 相关 性 的 研究 
可 以 扩展 到 多 个 名 义 变量 ， 例 如 : 





> histogram(“mxPH | size * speed, data = algae) 


它 说 明 河 流 大 小 和 速度 的 所 有 组 合 的 mxPH 值 的 变化 。 需 要 指出 的 
是 ， 它 没有 说 明 速 度 较 低 且 规模 较 小 河流 的 相关 信息 叫 。 仅 有 一 个 样 
本 具备 这 些 性 质 ， 即 第 48 条 样本 ， 而 变量 mxPH 在 该 样本 上 的 值 恰恰 缺 
IR] 





过 为 一 种 方式 也 可 以 获得 类 似 的 信息 ， 但 这 次 应 用 变量 的 具体 取 
值 : 


> stripplot(size ~ mxPH | speed, data = algae, jitter = T) 


上 面 指令 的 结果 如 图 2-8 所 示 。 参 数 jitter=T 说 明 对 Y 轴 的 变量 值 进行 
小 范 围 的 随机 排列 ， 这 样 可 以 避免 相同 值 之 间 的 相互 重合 而 导致 失 去 具 
有 某 些 特定 值 的 观察 值 集中 度 的 信息 。 


这 种 类 型 的 分 析 可 以 应 用 到 其 他 含有 缺失 值 的 变量 中 。 而 且 ， 这 种 
分 析 是 一 个 繁琐 的 过 程 ， 它 们 有 太 多 的 变量 组 合 需要 分 析 。 不 过 ， 这 种 
方法 可 以 应 用 到 有 少量 名 义 变量 的 较 小 数据 集 的 分 析 中 。 
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图 2-8 词 流 大 小 和 速度 引起 的 mxPH 的 变化 
[1] 根据 领域 专家 的 解释 ， 总 的 磷酸 盐 值 (PO4) 包含 正 磷酸 盐 值 
(oPO4) 。 
2) 前 面 给 出 了 变量 mxPH 的 均值 来 填充 它 的 缺失 值 的 命令 。 如 果 执 行 了 


该 命令 ， 就 不 是 这 里 的 情形 了 。 


2.5.4 ”通过 探索 案例 之 间 的 相似 性 来 填补 缺失 值 





不 同 于 探索 数据 集 列 《变量 ) 之 间 的 相关 性 ， 本 节 尝 试 使 用 行 ( 观 
SHE) 之 间 的 相似 性 来 填补 缺失 值 。 我 们 可 以 使 用 这 种 方法 来 填补 除去 
那 两 个 含有 太 多 NA 值 的 样本 外 的 其 他 缺失 数据 。 再 次 载 入 本 案例 数据 
来 履 兰 本 布 之 前 部 分 的 代码 《假设 你 已 经 运行 了 前 面 的 代码 ) 。 








> data(algae) 

> algae <- algae[-manyNAs(algae), ] 

本 节 所 描述 的 方法 假设 如 果 两 个 水 样 是 相似 的 ， 其 中 一 个 水 样 在 某 
些 变量 上 有 缺失 值 ， 那 么 该 缺失 值 很 可 能 与 另 一 个 水 样 的 值 是 相似 的 。 
为 了 使 用 这 种 直观 的 方法 ， 首 先 定义 相似 性 概念 。 相 似 性 经 常 由 描述 观 
察 值 的 多 元 度量 空间 的 变量 所 定义 。 在 文献 中 有 许多 度量 相似 性 的 指 
标 ， 第 用 的 是 欧式 距离 。 这 个 距离 可 以 非 正 式 地 定义 为 任何 两 个 案例 的 
观测 值 之 差 的 平方 和 。 计 算 公式 如 下 : 








d(x,y) = (2-1) 








下 面 要 描述 的 方法 将 使 用 这 种 度量 来 寻找 与 任何 含有 缺失 值 的 案例 
最 相似 的 10 个 水 样 ， 并 用 它们 来 填补 缺失 值 。 我 们 考虑 两 种 应 用 这 些 值 
的 方法 。 第 一 种 方法 简单 地 计算 这 10 个 最 相近 的 案例 的 中 位 数 并 用 这 个 


中 位 数 来 填补 缺失 值 。 如 果 缺 失 值 是 名 义 变量 《本 案例 的 algae 数 据 不 存 
在 这 种 情况 ) ， 我 们 采用 这 10 个 最 相似 数据 中 出 现 次 数 最 多 的 值 《 即 众 
数 ) 。 第 二 种 方法 采用 这 些 最 相似 数据 的 加 权 均 值 。 权 重 的 大 小 随 着 距 
符 填 补缺 失 值 的 个 案 的 距离 增 大 而 减 小 。 这 里 用 高 斯 核 函 数 从 距离 获得 
权重 。 如 果 相 邻 个 案 距 待 填补 缺失 值 的 个 案 的 距离 为 4， 则 它 的 值 在 加 
权 平 均 中 的 权重 为 : 


\ -d \ 
wid) =e (2-2) 


æ et 


上 面 的 方法 可 以 通过 本 书 添加 包 中 的 函数 knnImputation() 来 实现 。 
这 个 函数 用 一 个 欧式 距离 的 变种 来 找到 距 任何 个 案 最 近 的 k 个 邻居 。 这 
个 变种 的 欧式 距离 可 以 应 用 于 同时 含有 名 义 变量 和 数值 变量 的 数据 集 
中 。 计 算 公式 如 下 : 











l 当 守 是 名 义 变量 且 m Av, 时 
ô (v0) = 0 当 守 是 名 义 变量 且 w =, 时 (2-4) 


(v, -v,)° VizKEE EH 


在 计算 距离 时 ， 一 般 要 对 数值 变量 进行 标准 化 ， 即 : 





下 面 说 明 如 何 使 用 knnImputation() 函 数 。 

> algae <- knnImputation(algae, k = 10) 
如 果 用 中 位 数 来 填补 缺失 值 ， 可 以 使 用 如 下 代码 : 

> algae <- knnImputation(algae, k = 10, meth = "median") 


总 之 ， 通 过 这 些 简单 的 操作 ， 数 据 集 中 不 再 含有 NA 值 〈 缺 失 
值 ) ， 为 使 用 R 的 其 他 函数 进行 分 析 做 好 充分 的 准备 工作 。 


当 决 定 用 前 面 介绍 的 哪 种 方法 来 填补 缺失 值 时 ， 大 多 数 时 候 应 该 根 
据 所 分 析 领 域 的 知识 来 确定 。 根 据 个 案 之 间 的 相似 性 来 填补 缺失 值 看 起 
来 更 合理 ， 但 这 种 方法 也 存在 其 他 问题 ， 例 如 可 能 存在 不 相关 的 变量 扭 
曲 相似 性 ， 甚 至 造成 大 型 数据 集 的 计算 特别 复杂 等 问题 。 另 外 ， 对 于 这 
些 大 数据 集 问题 ， 可 以 通过 随机 抽取 样本 的 方法 来 计算 它们 之 间 的 相似 
ES 














处 理 缺 失 值 的 参考 文献 


Pyle (1999) 的 《Data Preparation for Data Mining> 一 书 有 关于 数据 
挖掘 的 数据 准备 的 所 有 事项 的 大 量 信息 ， 其 中 就 包括 处 理 缺 失 值 的 内 


容 。Weiss 和 Indutkhya (1999) #9 «Predictive Data Mining> 一 书 中 有 通用 
的 数据 准备 ， 特 别 是 缺失 数据 的 很 好 内 容 。 


Hong (1997) 以 及 Wilson 和 Martinez (1997) 的 文章 是 有 关 不 同类 型 
的 变量 间距 离 衡量 很 好 的 参考 。 更 进一步 的 参考 文献 可 以 在 
Torgo (1999a) 的 论文 中 找到 。 


2.6 获取 预测 模型 


本 案例 的 主要 研究 目的 是 预测 140 个 水 样 中 7 种 海藻 的 出 现 频 率 。 假 
设 海藻 频率 是 数值 型 数据 ， 因 此 可 以 考虑 进行 回归 分 析 趾 。 简 单 地 
说 ， 预 测 任 务 是 建立 一 个 模型 来 找到 一 个 数值 变量 和 一 组 解释 变量 的 关 
系 。 这 个 模型 既 可 以 根据 未 来 解释 变量 的 值 来 预测 目标 变量 ， 也 可 以 帮 
助 更 好 地 理解 问题 中 各 个 变量 之 间 的 相互 联系 。 





本 节 将 研究 适用 于 预测 海棠 的 两 种 不 同 的 模型 : 多 元 线性 回归 模型 
和 回归 树 模型 。 这 里 主要 基于 本 书 中 的 问题 进行 示例 性 的 选择 模型 ， 而 
非 基于 严格 的 模型 选择 步骤 。 不 过 ， 这 两 种 模型 是 应 用 于 回归 问题 的 较 
好 模型 ， 因 为 它们 对 逼近 的 回归 函数 的 形式 有 完全 不 同 的 假设 ， 两 类 模 
型 都 易于 解释 ， 而 且 可 以 在 任何 计算 机 上 非常 快速 地 运行 。 但 这 并 不 意 
味 着 在 进行 数据 挖掘 时 不 能 尝试 别 的 模型 ， 然 后 用 一 些 严格 的 模型 选择 
方法 (参见 2.7 市 ) 来 选择 其 中 的 一 个 或 者 多 个 用 于 最 后 预测 140 个 测试 
数据 。 

















这 两 个 模型 以 不 同 的 方式 解决 缺失 值 问题 。R 中 的 线性 回归 不 能 使 
用 有 缺失 值 的 数据 集 ， 而 回归 树 模型 可 以 很 自然 地 处 理 这 些 带 有 缺失 值 
的 数据 。 因 此 ， 在 建立 模型 之 前 ， 使 用 不 同 的 方法 来 进行 数据 准备 工 
作 。 对 线性 回归 模型 ， 我 们 运用 2.5 节 中 描述 的 方法 进行 数据 预 处 理 ， 
然后 应 用 线性 回归 模型 。 在 回归 树 模型 中 ， 我 们 将 直接 应 用 原始 的 200 





个 水 样 记录 办 。 





在 下 面 的 分 析 中 ， 假 定 140 个 测试 水 样 的 目标 变量 的 真实 值 是 未 知 
的 。 因 为 之 前 提 到 ， 本 书 网 站 中 包括 了 预测 问题 的 答案 ， 这 些 答案 给 出 
了 我 们 最 终 模 型 的 结果 以 供 读者 参考 。 


2.6.1 多 元 线性 回归 


多 元 线性 回归 模型 是 最 第 用 的 统计 数据 分 析 方 法 ， 该 模型 给 出 了 一 
个 有 关 目 标 变 量 与 一 组 解释 变量 关系 的 线性 函数 。 这 个 线性 函数 是 形 如 
B xX; 这 样 的 项 的 和 ， 这 里 X; 是 预测 变量 ，B; 是 一 个 常数 。 


正如 之 前 提 到 的 ， 在 多 元 线性 回归 模型 中 没有 处 理 缺失 值 的 方法 。 
因此 ， 这 里 将 应 用 根据 训练 集 数 据 个 案 的 相似 性 〈 参 见 2.5.4 节 ) 方法 来 
填补 缺失 值 。 要 注意 的 是 ， 在 使 用 这 种 填补 方法 之 前 ， 首 先 移 除 第 62 条 
和 第 199 条 水 样 记 录 ， 因 为 在 这 两 条 记录 的 11 个 预测 变量 中 有 6 个 是 有 缺 
失 值 的 。 以 下 代码 获取 一 个 不 含有 缺失 值 的 数据 框 : 














> data(algae) 
> algae <- algae[-manyNAs(algae), ] 
> clean.algae <- knnImputation(algae, k = 10) 


在 运行 上 面 的 代码 后 ， 得 到 的 数据 框 clean.algae 将 不 含有 缺失 值 。 
接 下 来 ， 将 建立 一 个 用 于 预测 海 深 频 率 的 线性 回归 模型 : 


> lm.al <- lm{al ~ ., data = clean.algae[, 1:12]) 


函数 lIm() 建 立 一 个 线性 回归 模型 ， 其 中 的 第 一 个 参数 给 出 了 模型 的 
函数 形式 。 在 这 个 例子 中 ， 函 数 的 形式 是 用 数据 中 的 其 他 所 有 变量 
来 预测 变量 al， 第 一 个 参数 中 的 点 子 “.” 代 表 数 据 框 中 的 所 有 除 al 外 的 变 
量 。 如 果 需 要 用 预测 变量 mxPH 和 NH4 来 预测 变量 al， 就 要 定义 模型 
为 “al 一 mxXPH+NH4”。 还 有 许多 其 他 定义 模型 的 方式 ， 这 都 称 为 R 公 
式 ， 后 边 用 到 时 将 进行 介绍 。 参 数 data 是 用 来 设 定 建 模 所 用 的 数据 集中 








函数 Im() 的 结果 是 一 个 含有 线性 模型 信息 的 对 象 。 可 以 通过 下 列 代 
码 获 取 更 多 线性 模型 的 信息 : 


> summary (im.al) 


Call: 
lm(formula = al ~ ., data = clean.algae[, 1:12]) 
Residuals: 

Min 1Q Median 3Q Max 


-37.679 -11.893 -2.567 7.410 62.190 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 42.942055 24.010879 1.788 0.07537 . 
seasonspring 3.726978 4.137741 0.901 0.36892 
seasonsummer 0.747597 4.020711 0.186 0.85270 
seasonwinter 3.692955 3.865391 0.955 0.34065 
sizemedium 3.263728 3.802051 0.858 0.39179 
sizesmall 9.682140 4.179971 2.316 0.02166 * 
speedlow 3.922084 4.706315 0.833 0.40573 
speedmedium 0.246764 3.241874 0.076 0.93941 
mxPH -3.589118 2.703528 -1.328 0.18598 
mn02 1.052636 0.705018 1.493 0.13715 
Cl -0.040172 0.033661 -1.193 0.23426 
NO3 -1.511235 0.551339 -2.741 0.00674 ** 
NH4 0.001634 0.001003 1.628 0.10516 
oP04 -0.005435 0.039884 -0.136 0.89177 
P04 -0.052241 0.030755 -1.699 0.09109 . 
Chla -0.088022 0.079998 -1.100 0.27265 


Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1 
Residual standard error: 17.65 on 182 degrees of freedom 


Multiple R-squared: 0.3731, Adjusted R-squared: 0.3215 
F-statistic: 7.223 on 15 and 182 DF, p-value: 2.444e-12 


在 解释 函数 summary0 应 用 到 线性 模型 对 象 所 得 到 的 信息 之 前 ， 先 
介绍 R 如 何 处 理 3 个 名 义 变 量 。 当 像 上 面 一 样 进行 模型 构建 时 ，R 会 生成 





一 组 的 辅助 变量 上 ， 即 对 每 一 个 有 k 个 水 平 的 因子 变量 ，R 会 生成 k-1 个 
辅助 变量 。 这 些 辅助 变量 的 值 为 0 或 者 1。 当 辅助 变量 的 值 为 1， 表 明 该 
因子 值 出 现 ， 同 时 表明 所 有 其 他 辅助 变量 的 值 为 0。 如 果 所 有 这 k-1 个 辅 
助 变量 取 值 都 为 0%0， 则 表明 因子 变量 的 取 值 为 第 k 个 剩余 的 值 。 在 以 上 的 
汇总 结果 中 ， 可 以 看 到 R 为 因子 变量 season 生 成 了 3 个 辅助 变量 
(seasonspring、seasonsummer 和 seasonwinter) 。 如 果 某 个 水 样 的 season 


变量 的 取 值 为 "auumn”， 则 所 有 3 个 辅助 变量 的 值 将 全 部 为 零 。 





对 得 到 的 线性 模型 对 象 应 用 函数 summary()， 将 给 出 所 建立 模型 的 
一 些 诊断 信息 。 首 先是 有 关 线 性 模型 中 数据 拟 合 的 残 牵 。 残 差 应 该 是 均 
值 为 0 并 且 为 正 态 分 布 。( 显 然 残 差 最 好 尺 可 能 地 小 ! ) 











对 于 每 个 多 元 线性 回归 方程 的 系数 (变量 ) ，R 显 示 它 的 估计 值 和 
标准 误差 (这 些 系数 变化 程度 的 估计 ) 。 为 了 检验 这 些 系数 的 重要 性 ， 
可 以 进行 这 些 系数 为 0 的 假设 检验 ， 即 H ，B =0。 通 常 使 用 t 闪 验 来 验证 

B. 
这 些 假设 。R 计 算 t 值 ， 该 值 定义 为 估计 系数 值 与 其 标准 误差 的 比 ， 即 将 
，R 将 显示 与 系数 相关 联 的 一 列 (Pr (>V ) 表示 系数 为 0 这 一 假设 被 
拒绝 的 概率 。 因 此 ， 该 值 为 0.0001 表 明 有 99.99% 的 置信 度 认为 这 个 系数 
并 非 为 0。 对 于 每 个 测试 ，R 都 给 出 一 个 标志 来 表示 相对 应 的 测试 置信 度 
水 平 。 总 之 ， 仅 对 于 这 些 在 前 面 有 标志 的 系数 ， 我 们 至 少 有 90% 的 置信 
度 来 拒绝 系数 为 0 这 一 假设 。 








男 一 个 由 R 输 出 的 模型 诊断 信息 是 R* (或 者 多 元 R“ 或 调整 R* ) 。 
R? 表明 模型 与 数据 的 吻合 度 ， 即 模型 所 能 解释 的 数据 变 差 的 比例 。R* 
越 近 于 1《〈 几 乎 1009% 地 解释 模型 数据 的 变 关 ) 就 说 明 模 型 拟 合 得 越 好 ; 
R? 越 小 ， 说 明 模 型 拟 合 得 越 差 。 调 整 系数 则 更 严格 ， 它 考虑 回归 模型 
中 参数 的 数量 。 








最 后 ， 我 们 还 可 以 检验 任何 解释 变量 与 目标 变量 没有 依赖 关系 这 
原 假设 ， 即 Hu : Bi =B- =......Bmn =0。 可 以 通过 把 R 给 出 的 F 统 计 值 与 一 
个 临界 值 进行 比较 来 进行 检验 。R 提 供 一 个 拒绝 原 假设 的 置信 和 度 水 平 。 
因此 p 值 为 0.0001 表 示 有 99.99% 的 置信 和 度 确 定 原 假 设 是 错误 的 。 

如 果 一 个 模型 不 能 通过 这 个 检验 〈 即 得 到 的 p 值 被 认为 太 大 ， 例 如 大 于 
0.1) ， 则 单个 系数 的 t 检 验 没有 意义 。 


有 些 诊断 信息 也 可 以 通过 绘制 线性 模型 来 进行 检验 。 实 际 上 ， 可 以 
用 一 个 类 似 plot m.a 的 命令 来 得 到 一 系列 的 线性 模型 图 ， 和 它们 有 助 
于 了 解 模型 的 性 能 。 其 中 的 一 个 图 形 绘 制 拟 合 的 目标 变量 值 和 模型 残 差 
CRA. TRARY CARY, RIEA ETA RCA DP as Re T 
数 ， 这 样 就 可 以 方便 地 检查 这 些 误差 较 大 的 记录 。R 给 出 的 力 外 一 个 图 
形 是 误 盈 的 正 态 Q-Q 图 ， 通 过 它 可 以 检查 误差 是 人 否 符 合 应 有 的 正 态 分 布 
[6] 














该 模型 解释 的 方差 比例 还 不 是 很 理想 (大 约 32%) 。 还 可 以 拒绝 目 
标 变量 不 依赖 于 预测 变量 的 假设 〈F 检 验 的 p 值 很 小 ) 。 检 查 某 些 系数 的 





显著 性 ， 可 能 会 质疑 有 些 变量 是 否 应 该 进入 模型 中 。 有 多 种 方法 可 以 用 


来 精简 回归 模型 。 本 节 将 4 


介绍 问 后 消 元 法 。 


首先 用 函数 anova0) 来 精简 线性 模型 。 当 将 anova0 应 用 到 简单 线性 模 
型 时 ， 这 个 函数 提供 一 个 模型 拟 合 的 方差 序 贯 分 析 。 也 就 是 说 ， 随 着 公 


式 中 项 数 的 增加 ， 模 型 的 残 差 平 方 和 减少 。 


分 析 ， 结 果 如 下 。 


> anovallm.ai) 


Analysis of Variance Table 


Response: al 


Df 
season 3 
size 2 
speed 2 
mxPH 1 
mn02 1 
Cl 1 
N03 1 
NH4 1 
oP04 1 
P04 1 
Chla 1 
Residuals 182 


Signif. codes: 


85 
11401 
3934 
1329 
2287 
4304 
3418 
404 
4788 
1406 
377 
56668 


28. 


5700. 
1967. 
1328. 
2286. 
4304. 
3418. 

403. 
4788. 
1405. 

377. 

311. 
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O '***' 0.001 
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Sum Sq Mean Sq F value Pr(>F) 


0.0905 0.9651944 
18.3088 5.69e-08 **« 


6.3179 0.0022244 ** 
4.2677 0.0402613 * 
7.3444 0.0073705 ** 
13.8239 0.0002671 *** 
10.9789 0.0011118 ** 
1.2963 0.2563847 
15.3774 0.0001246 *** 
4.5142 0.0349635 * 
1.2107 0.2726544 


len O08 te G06 .-* 5? Bod 1 tg 


上 面 结果 表明 变量 season 对 减少 模型 拟 合 误差 的 贡献 最 小 。 下 面 将 


它 从 模型 中 剔除 : 


> 1m2.al <- update(lm.ai, . ~ . - season) 


函数 update0) 用 于 对 已 有 的 线性 模型 进行 微小 的 调整 。 在 上 面 的 代 
码 中 ， 应 用 函数 update0 从 模型 Im.al 中 移 除 变量 season 以 得 到 一 个 新 的 
模型 。 新 模型 的 汇总 信息 如 下 : 


> summary (1m2.a1) 


Call: 
lm(formula = al ~ size + speed + mxPH + mn02 + Cl + NO3 + NH4 + 
oP04 + P04 + Chla, data = clean.algae[, 1:12]) 


Residuals: 
Min 1Q Median 30 Max 
-36.460 -11.953 -3.044 7.444 63.730 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 44.9532874 23.2378377 1.934 .05458 . 


© 


sizemedium 3.3092102 3.7825221 0.875 0.38278 
sizesmall 10.2730961 4.1223163 2.492 0.01358 * 
speedlow 3.0546270 4.6108069 0.662 0.50848 
speedmedium -0.2976867 3.1818585 -0.094 0.92556 
mxPH -3.2684281 2.6576592 -1.230 0.22033 
mn02 0.8011759 0.6589644 1.216 0.22561 
Cl -0.0381881 0.0333791 -1.144 0.25407 
NO3 -1.5334300 0.5476550 -2.800 0.00565 ** 
NH4 0.0015777 0.0009951 1.586 0.11456 
oP04 -0.0062392 0.0395086 -0.158 0.87469 
P04 -0.0509543 0.0305189 -1.670 0.09669 . 
Chla -0.0841371 0.0794459 -1.059 0.29096 


Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1 


Residual standard error: 17.57 on 185 degrees of freedom 
Multiple R-squared: 0.3682, Adjusted R-squared: 0.3272 
F-statistic: 8.984 on 12 and 185 DF, p-value: 1.762e-13 


新 模型 的 拟 合 指标 R? 提高 到 了 32.89%， 仍 然 不 是 太 理想 。 下 面 使 用 
anova() 函 数 对 两 个 模型 进行 比较 正式 的 比较 ， 但 这 次 使 用 两 个 模型 作为 
参数 : 


> anova(1m.a1,1m2.ai) 


Analysis of Variance Table 


Model 1: al 7 season + size + speed + mxPH + mn02 + Cl + NO3 + NH4 + 
oP04 + P04 + Chla 
Model 2: al ~ size + speed + mxPH + mn02 + Cl + NO3 + NH4 + oP04 + 


P04 + Chla 
Res.Df RSS Df Sum of Sq F Pr(>F) 

1 182 56668 
2 185 57116 -3 -448 0.4792 0.6971 


上 面 的 函数 通过 F 检 验 对 两 个 模型 进行 方差 分 析 ， 据 此 评估 两 个 模 
型 是 否 有 显著 不 同 。 这 种 情况 下 ， 尺 管 误差 平方 和 减少 了 (-448) ， 但 
是 比较 结果 说 明 两 者 的 差距 并 不 显著 (显著 性 值 0.6971 说 明 两 个 模型 不 
同 的 可 能 性 有 30%) 。 注 意 ， 新 模型 比较 简单 。 为 了 检查 能 否 移 除 更 多 
的 系数 ， 我 们 再 次 对 lm2.al 模 型 使 用 anova() 函 数 。 不 断 重 复 这 个 过 程 直 
到 没有 可 吻 除 的 候选 系数 。 为 了 简化 向 后 消 元 过 程 ，R 有 一 个 函数 来 执 
行 上 面 所 有 过 程 。 














下 面 的 代码 对 初始 模型 (lm.al1〉 用 向 后 消 元 方法 得 到 一 个 新 的 线 
ERA TI, 


> final.lm <- step(1m.a1) 
Start: AIC= 1151.85 
al ~ season + size + speed + mxPH + mn02 + Cl + NO3 + NH4 + OP04 + 
P04 + Chla 


Df Sum of Sq RSS AIC 


- season 3 425 57043 1147 
- speed 2 270 56887 1149 
- oP04 1 5 56623 1150 
- Chla 1 401 57018 1151 
= Cl 1 498 57115 1152 
- mxPH 1 542 57159 1152 
<none> 56617 1152 
- mn02 650 57267 1152 


1 
-~ NH4 1 799 57417 1153 
- P04 1 899 57516 1153 
- size 2 1871 58488 1154 
- NO3 1 2286 58903 1158 


Step: AIC= 1147.33 
al ~ size + speed + mxPH + mn02 + Cl + NO3 + NH4 + oP04 + P04 + 
Chla 


Df Sum of Sq RSS AIC 


- speed 2 213 57256 1144 
- OP04 1 8 57050 1145 
- Chla 1 378 57421 1147 
-mn02 1 427 57470 1147 
= mxPH 1 457 57500 1147 
= Çl 1 464 57506 1147 
<none> 57043 1147 
- NH4 1 751 57794 1148 
- P04 1 859 57902 1148 
- size 2 2184 59227 1151 
- NO3 1 2353 59396 1153 


Step: AIC= 1140.09 
al ~ size + mxPH + Cl + NO3 + P04 


Df Sum of Sq RSS AIC 
<none> 58432 1140 
- mxPH 1 801 59233 1141 
= CF 1 906 59338 1141 
= NOS 1 1974 60405 1145 
- size 2 2652 61084 1145 
= P04 1 8514 66946 1165 


函数 stepO 使 用 Akaike 信 息 标 准 进行 模型 搜索 。 默 认 情 况 下 ， 搜 索 使 
用 向 后 消 元 方法 ， 但 通过 设置 参数 direction， 可 以 采用 其 他 的 方法 〈 参 
考 该 函数 的 帮助 文档 以 获取 更 多 信息 ) 





可 以 通过 下 面 的 代码 来 获得 最 后 模型 的 信息 : 


> summary (final.1m) 


Call: 

lm(formula = ai ~ size + mxPH + Cl + N03 + P04, data = clean.algae[, 
1:12] ) 

Residuals: 
Min 1Q Median 3Q Max 


-28.874 -12.732 -3.741 8.424 62.926 


Coefficients: 
Estimate Std. Error t value Pr(>|t]) 
(Intercept) 57.28555 20.96132 2.733 0.00687 ** 


sizemedium 2.80050 3.40190 0.823 0.41141 
sizesmall 10.40636 3.82243 2.722 0.00708 ** 
mxPH -3.97076 2.48204 -1.600 0.11130 

Cl -0.05227 0.03165 -1.651 0.10028 
NO3 -0.89529 0.35148 -2.547 0.01165 * 
P04 -0.05911 0.01117 -5.291 3.32e-07 *** 


Signif. codes: 0 'x**' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1 
Residual standard error: 17.5 on 191 degrees of freedom 


Multiple R-squared: 0.3527, Adjusted R-squared: 0.3324 
F-statistic: 17.35 on 6 and 191 DF, p-value: 5.554e-16 


这 个 模型 所 解释 的 方差 比例 CR?) 仍然 不 是 很 可 观 ， 这 样 的 R? 表 
明 对 海 兴 案例 应 用 假定 的 线性 模型 是 不 合适 的 。 





多 元 线性 回归 的 参考 文献 


线性 回归 是 最 常用 的 统计 技巧 之 一 。 因 此 ， 大 部 分 的 统计 学 书籍 都 
有 这 一 主题 的 内 容 。 对 于 深入 的 研究 ， 可 以 参阅 更 专业 的 书籍 。 其 中 的 
两 本 涉及 回归 分 析 深 入 内 容 的 书籍 是 Drapper 和 Smith (1981) 、 
Myers (1990) 的 书籍 ， 它 们 涵盖 了 你 需要 知道 的 线性 回归 的 绝 大 部 分 


[1] 实际 上 ， 由 于 我 们 要 预测 每 种 水 样 的 7 种 频率 值 ， 所 以 我 们 可 以 把 这 
个 问题 分 成 7 种 不 同 的 线性 回归 。 

D] 实际 上 ， 由 于 缺失 值 太 多 ， 我 们 只 需要 移 除 两 个 缺失 值 。 

[3] 其 实 ，R 中 用 于 建立 模型 的 大 部 分 函数 都 是 如 此 。 

[4] 我 们 已经 指出 了 11 种 解释 变量 加 上 表示 海 滞 al1 列 。 

[5] 有 时 也 称 为 虚拟 变量 。 

16] 在 理想 情况 下 ， 所 有 的 误差 将 在 图 上 显示 为 直线 。 

7 因为 空间 问题 ， 所 以 在 此 处 省 略 了 部 分 step0 函 数 的 输出 。 


2.6.2 ”回归 树 


本 节 给 出 R 中 的 男 一 种 回归 模型 。 即 本 节 描 述 了 如 何 通 过 建立 回归 
树 〈( 参 见 Breiman etal., 1984) 来 预测 海棠 al 出 现 的 频率 。 由 于 这 类 模 
型 能 够 处 理 人 缺失 值 ， 所 以 这 里 只 需要 如 前 面 所 述 移 除 62 号 和 199 号 水 样 
即 可 。 





建立 回归 树 模 型 的 代码 如 下 : 


> library(rpart) 

> data(algae) 

> algae <- algae[-manyNAs (algae), J 

> rt.al <- rpart(al ~ ., data = algae[, 1:12]) 


第 一 条 指令 用 于 加 载 R 中 的 rpart 添 加 包 (Therneau and Atkinson, 
2010) ， 该 包 中 有 回归 树 的 实现 如 。 最 后 一 条 指令 用 于 获取 回归 树 。 
注意 ， 这 里 函数 应 用 的 参数 形式 与 Im() 函 数 的 参数 形式 相同 。 函 数 
rpart() 的 第 二 个 参数 给 出 用 于 建立 回归 树 的 数据 集 。 





对 象 rt.al 的 内 容 如 下 : 


> rt.ai 


n= 198 


node), split, n, deviance, yval 
* denotes terminal node 
1) root 198 90401.290 16.996460 
2) P04>=43.818 147 31279.120 8.979592 
4) Cl>=7.8065 140 21622.830 7.492857 
8) oP04>=51.118 84 3441.149 3.846429 * 
9) oPO4< 51.118 56 15389.430 12.962500 
18) mn02>=10.05 24 1248.673 6.716667 * 
19) mn02< 10.05 32 12502.320 17.646870 
38) NO3>=3.1875 9 257.080 7.866667 * 
39) NO3< 3.1875 23 11047.500 21.473910 
78) mn02< 8 13 2919.549 13.807690 * 
79) mn02>=8 10 6370.704 31.440000 * 
5) Cl< 7.8065 7 3157.769 38.714290 * 
3) PO4< 43.818 51 22442.760 40.103920 
6) mxPH< 7.87 28 11452.770 33.450000 
12) mxPH>=7.045 18 5146.169 26.394440 
13) mxPH< 7.045 10 3797.645 46.150000 
7) mxPH>=7.87 23 8241.110 48.204350 
14) P04>=15.177 12 3047.517 38.183330 
15) POA4< 15.177 11 2673.945 59.136360 


党 * 


* * 


回归 树 是 对 东 些 解释 变量 分 层次 的 逻辑 测试 。 基 于 树 的 模型 自动 得 
选 某 些 相关 的 变量 ， 这 样 导 致 不 是 所 有 的 变量 都 会 在 树 中 出 现 。 树 从 R 
标 为 1 的 根 结 点 开始 读 ，R 在 这 个 结 点 中 提供 数据 的 相关 信息 。 即 ， 可 以 
在 该 结 反 中 看 到 一 共有 198 个 水 样 〈 用 于 构建 树 的 训练 集 数 据 样 本 
量 ) ， 在 这 198 个 水 样 中 ， 海 藻 al 出 现 的 平均 频率 为 16.99， 相 对 平均 值 
的 偏差 后 为 90401.29。 树 的 每 个 结 点 有 两 个 分 支 ， 这 与 预测 变量 的 检验 
结果 有 关 。 例 如 ， 在 根 结 点 中 有 一 个 相应 于 测试 "PO4>43.818” 为 真 〈 含 
有 147 个 水 样 ) 的 个 案 分 文 〈R 输 出 中 标 为 “2”) ， 同 时 也 有 为 一 个 分 文 








包含 剩余 的 51 个 不 满足 这 个 测试 的 水 样 〈R 标 记 为 “3”) 。 从 结 点 2 有 两 
个 分 文 分 别 连 接 到 结 点 4 和 线 点 5， 有 具体 到 哪个 结 点 由 对 变量 Cl 的 检验 来 
确定 。 不 断 进 行 以 上 的 检验 ， 直 到 达到 菜 一 个 叶 结 点 ， 这 些 叶 结 点 在 R 
中 由 星 写 标记 出 来 。 在 叶 结 点 ， 我 们 就 可 以 对 树 进 行 预测 了 。 也 残 是 
说 ， 如 果 我 们 想 建 立 一 个 回归 树 来 预测 人 菜 个 水 样 的 频率 ， 只 要 从 根 结 扣 
开始 根据 对 该 水 样 检验 的 结果 ， 退 踩 某 个 分 文 ， 直到 叶 结 点 。 叶 结 反 目 
标 变量 的 平均 值 就 是 树 的 预测 值 。 











我 们 也 可 以 得 到 回归 树 的 图 形 表 示 。 可 以 用 函数 plot0 和 函数 textO) 
对 树 对 象 绘图 即 可 。 这 两 个 函数 有 多 个 参数 来 控制 树 的 可 视 化 。 为 了 方 
便 地 得 到 齐 腕 的 树 的 可 视 化 图 形 ， 本 书 的 R 添 加 包 中 提供 了 函数 
prettyTree()。 对 上 面 得 到 的 树 对 象 应 用 该 函数 ， 得 到 图 形 如 图 2-9 所 示 。 


> prettyTree(rt.ai) 


函数 summary0O 也 可 以 用 于 树 对 象 。 此 函数 将 给 出 许多 有 关于 树 的 
测试 信息 、 其 他 可 能 考虑 的 测试 以 及 中 间 分 割 等 。 这 里 的 中 间 分 割 是 R 
回归 树 处 理 缺 失 值 的 一 种 方法 。 


通常 分 为 两 步 来 建立 回归 树 。 最 初 ， 生 成 一 柠 较 大 的 树 ， 然 后 通过 
统计 估计 删除 底部 的 一 些 结 点 来 对 树 进行 修 斑 。 这 个 过 程 的 目的 是 防止 
过 度 拟 合 。 事 实 上 ， 一 个 过 上 度 大 的 树 一 般 会 很 好 地 对 训练 集 数 据 进行 拟 
合 ， 但 是 它 会 拟 合 给 定数 据 集中 的 一 些 虚假 的 关系， 因此 当 把 该 模型 用 











于 新 数据 的 预 训 时 ， 预 测 性 能 很 关 。 在 许多 建 模 技术 中 存在 过 度 拟 合 问 
题 ， 尤 其 是 当 需 要 逼近 的 函数 的 假设 条 件 不 是 很 严格 的 时 候 。 对 于 要 求 
不 严格 的 模型 ， 虽 然 它 们 的 要 求 不 高 ， 有 广泛 的 应 用 范围 ， 但 却 存在 过 
度 拟 合 问题 ， 所 以 它 需 要 一 个 事后 统计 估计 步骤 来 避免 过 度 拟 合 问题 。 
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图 2-9 预测 海 沫 41 的 回归 树 


上 面 使 用 rpart0 函 数 构 建树 ， 在 构建 树 的 过 程 中 ， 当 给 定 条 件 满足 
时 构建 过 程 就 停止 。 当 下 列 条 件 满足 时 ， 树 构建 过 程 将 结束 : 1) 
的 减少 小 于 某 一 个 给 定 界限 值 时 ，2) 当 结 点 中 的 样本 数量 小 于 某 个 给 





定 界 限时 ，3) 当 树 的 深度 大 于 一 个 给 定 的 界限 值 。 上 面 3 个 界限 值 分 别 
由 rpartO 函 数 的 三 个 参数 (cp、minsplit、maxdepth) 来 确定 。 它 们 的 默 
认 值 分 别 为 0.01、20 和 30。 如 果 要 避免 树 的 过 度 拟 合 问题 ， 就 要 经 常 检 
查 这 些 默 认 值 的 有 效 性 。 这 可 以 通过 对 得 到 的 树 采 取 事 后 修剪 过 程 来 进 


rpart 添 加 包 实 现 了 一 种 称 为 复杂 度 损失 修剪 的 修剪 方法 (Breiman 
etal., 1984) 。 这 个 方法 使 用 R 在 每 个 树 结 点 计算 的 参数 值 cp。 这 种 修 
剪 方法 试图 估计 cp 值 以 确保 达到 预测 的 准确 性 和 树 的 大 小 之 间 的 最 佳 折 
HH 0 Ep 
树 ， 并 估计 这 些 树 的 性 能 。 这 些 信息 可 以 通过 函数 printcp0) 得 到 站: 


> printcp(rt.a1) 


Regression tree: 
rpart(formula = ai ~ ., data = algae[, 1:12]) 


Variables actually used in tree construction: 
[1] Cl mn02 mxPH N03 oP04 P04 


Root node error: 90401/198 = 456.57 


n= 198 

CP nsplit rel error xerror xstd 
1 0.405740 0 1.00000 1.00932 0.12986 
2 0.071885 1 0.59426 0.73358 0.11884 
3 0.030887 2 0.52237 0.71855 0.11518 
4 0.030408 3 0.49149 0.70161 0.11585 


5 0.027872 4 0.46108 0.70635 0.11403 
6 0.027754 5 0.43321 0.69618 0.11438 
7 0.018124 6 0.40545 0.69270 0.11389 
8 0.016344 7 0.38733 0.67733 0.10892 
9 0.010000 9 0.35464 0.70241 0.11523 


由 rpartO 函 数 建立 的 回归 树 是 上 面 列 表 中 的 最 后 一 个 树 〈 树 9) 。 这 
个 树 的 cp 值 为 0.01( 参 数 cp 的 默认 值 )， 该 树 包 括 九 个 测试 和 一 个 相对 
误差 值 〈 与 根 结 点 相 比 ) 0.354。 然 而 ，R 应 用 10 折 交叉 验证 的 内 部 过 
程 ， 评 估 该 树 的 平均 相对 误差 4) 为 0.70241+0.11523。 根 据 这 些 更 稳健 
的 性 能 估计 信息 ， 可 以 避免 过 度 拟 合 问题 。 可 以 看 到 ，8 号 树 的 预测 相 
对 误差 (0.67733) 最 小 。 男 一 个 选择 标准 是 根据 1-SE 规 则 来 选择 最 好 
的 回归 树 ， 这 包括 检查 交叉 验证 的 估计 误差 (“xerror” 列 ) ， 以 及 标准 
误差 (“xstd” 列 ) 。 在 这 个 案例 中 ，1-SE 规 则 树 是 最 小 的 树 ， 误 差 小 于 
0.67733+0.10892=0.78625， 而 由 1 检验 的 2 号 树 的 估计 误差 为 0.73358。 如 
果 我 们 选择 这 个 树 而 不 是 R 建 议 的 树 ， 我 们 就 可 以 通过 使 用 不 同 的 cp 值 
吕 来 建立 这 棵 树 。 





> rt2.al <- prune(rt.al, cp = 0.08) 
> rt2.al 


n= 198 


node), split, n, deviance, yval 
* denotes terminal node 


1) root 198 90401.29 16.996460 
2) P04>=43.818 147 31279.12 8.979592 * 
3) P04< 43.818 51 22442.76 40.103920 * 





在 本 书 添 加 包 中 的 mpartXse0 函 数 可 以 自动 运行 这 个 过 程 ， 它 的 参数 
se 的 默认 值 为 1。 


> (rt.al <- rpartXse(al ~ ., data = algaef, 1:12])) 


n= 198 


node), split, n, deviance, yval 
* denotes terminal node 


1) root 198 90401.29 16.996460 
2) P04>=43.818 147 31279.12 8.979592 * 
3) P04< 43.818 51 22442.76 40.103920 * 


可 以 应 用 R 的 函数 snip. ER 。 这 个 函数 可 以 
过 两 种 方式 生成 一 个 修剪 过 的 回归 树 。 第 一 种 方法 是 指出 需要 修剪 那 
个 地 方 的 结 点 号 〈 可 以 通过 输出 树 对 象 来 得 到 树 的 结 点 号 


> first.tree <- rpart(al ~ ., data = algae[, 1:12]) 
> snip.rpart(first.tree, c(4, 7)) 


n= 198 


node), split, n, deviance, yval 
* denotes terminal node 


1) root 198 90401.290 16.996460 
2) P04>=43.818 147 31279.120 8.979592 
4) Cl>=7.8065 140 21622.830 7.492857 * 
5) Cl< 7.8065 7 3157.769 38.714290 * 
3) PO4< 43.818 51 22442.760 40.103920 
6) mxPH< 7.87 28 11452.770 33.450000 
12) mxPH>=7.045 18 5146.169 26.394440 * 
13) mxPH< 7.045 10 3797.645 46.150000 * 
7) mxPH>=7.87 23 8241.110 48.204350 * 


这 个 函数 与 rpart0 函 数 一 样 返 回 一 个 树 对 象 ， 所 以 可 以 用 形 如 
my.tree<-snip.rpart (first.tree,c (4, 7) ) 这 样 的 代码 来 保存 这 个 修剪 
过 的 树 。 





另外 ， 也 可 以 在 图 形 窗 口 下 使 用 snip.rpartO 函 数 。 首 先 ， 画 出 回归 
树 ， 然 后 调用 没有 第 二 个 参数 的 函数 。 如 果 点 击 回归 树 的 茶 些 结 点 ，R 
会 在 控制 台 输 出 这 些 结 点 的 信息 。 如 果 继 续 点 击 这 个 结 皮 ，R 殊 在 这 个 
结 点 对 树 进 行 修剪 "% 。 可 以 在 图 形 窗口 继续 修剪 回归 树 ， 直 到 右 击 结 
束 这 一 交互 式 的 修剪 过 程 。 调 用 该 函数 的 结果 仍然 是 一 个 树 对 象 : 


> prettyTree(first.tree) 
> snip.rpart(first.tree) 


node number: 2 n= 147 
response= 8.979592 
Error (dev) = 31279.12 

node number: 6 n= 28 
response= 33.45 
Error (dev) = 11452.77 

n= 198 


node), split, n, deviance, yval 
* denotes terminal node 


1) root 198 90401.290 16.996460 
2) P04>=43.818 147 31279.120 8.979592 * 
3) PO4< 43.818 51 22442.760 40.103920 
6) mxPH< 7.87 28 11452.770 33.450000 * 
7) mxPH>=7.87 23 8241.110 48.204350 
14) PO4>=15.177 12 3047.517 38.183330 * 
15) PO4< 15.177 11 2673.945 59.136360 * 


在 上 例 中 ， 点 击 并 修剪 了 结 点 2 和 结 点 6。 

回归 树 的 参考 文献 

如 果 需 要 更 加 全 面 的 学 习 回 归 树 ， 可 以 参考 Breiman 等 (1984) 的 书 
籍 。 该 书 是 分 类 树 和 回归 树 的 标准 参考 文献 。 对 一 些 读 者 而 言 ， 本 书 的 
方法 可 能 有 些 太 正式 (至 少 茶 些 章节 ) 。 无 论 如 何 ， 这 本 书 都 绝对 是 一 


本 极 好 的 参考 书 ， 尽 管 它 更 偏重 于 统计 文献 。 从 机 器 学 习 方 面 而 言 ， 
Quinlan (1993) 的 有 关 C4.5 的 书 是 一 本 有 关 分 类 树 的 很 好 的 参考 书 。 本 


书 作者 的 博士 论文 (Torgo, 1999a) 给 出 了 很 好 的 回归 树 入 门 知识 和 高 
级 主题 ， 你 可 以 从 作者 网 站 免费 下 载 。 论 文中 也 介绍 了 其 他 基于 树 的 模 
型 ， 它 们 的 目的 是 在 叶 结 点 用 更 复杂 的 模型 来 提高 回归 树 的 精确 度 
(Torgo, 2000) 。 


四 “实际 上 ， 还 有 另外 一 个 添加 包 也 可 以 实现 此 类 模型 ， 但 是 在 这 个 案 
例 中 ， 我 们 只 使 用 rpatt 程 序 。 
2) 不 同 值 与 平均 值 之 差 的 平方 和 。 


[3] 可 以 通过 函数 plotcp (rt,al) 以 图 形 方式 来 得 到 类 似 的 信息 。 
加 ”注意 ， 你 可 能 在 列 “xettof f3) “xstd” 得 到 不 同 的 数值 。 交 互 验 
证 估计 值 是 通过 随机 抽样 得 到 的 ， 这 意味 着 你 的 抽样 可 能 和 这 里 的 不 


同 ， 因 此 得 到 的 结果 也 是 不 同 的 。 

5 事实 上 ， 可 以 用 它 对 应 的 cp 值 和 它 上 面 的 那 棵 树 的 cp 值 之 间 的 任何 数 
值 。 

[6] ”注意 ， 因 为 回归 树 的 图 片 没 有 更 新 ， 所 以 你 不 会 在 图 形 窗口 看 到 修 
剪 回 归 树 的 过 程 。 


2.7 ”模型 的 评价 和 选择 





2.6 节 给 出 了 本 案例 的 两 个 预测 模型 的 例子 。 最 明显 的 问题 是 ， 应 
该 使 用 哪 一 个 模型 来 获得 7 种 海藻 的 140 个 测试 样品 的 预测 。 为 了 回答 这 
个 问题 ， 需 要 在 可 供 选 择 的 模型 空间 中 指定 一 些 模型 的 仿 好 标准 ， 也 就 
是 说 ， 需 要 详细 说 明 应 该 如 何 评价 模型 的 性 能 。 








有 多 种 评价 (和 比较 〉 模型 的 标准 。 其 中 最 流行 的 标准 是 计算 模型 
的 预测 性 能 。 当 然 还 有 其 他 衡量 模型 的 标准 ， 例 如 模型 的 可 解释 性 ， 还 
有 对 大 型 数据 挖掘 特别 重要 的 标准 ， 即 模型 的 计算 效率 。 


回归 模型 的 预测 性 能 是 通过 将 目标 变量 的 预测 值 与 实际 值 进行 比较 
得 到 的 ， 并 从 这 些 比 较 中 计算 茶 些 平均 误差 的 度量 。 一 种 度量 方法 是 平 
yaa in (MAE) 。 下 面 描述 如 何 获得 2.6 节 中 两 个 模型 〈 线 性 回归 
和 回归 树 ) 的 平均 绝对 误 兰 。 第 一 步 ， 获 取 需 要 评价 模型 预测 性 能 的 调 
试 集 个 案 的 预测 值 。 在 R 中 ， 要 获得 任何 模型 的 预测 ， 就 要 使 用 函数 
predict0) 进 行 预 测 。 函 数 predictO) 是 一 个 泛 型 函数 ， 它 的 一 个 参数 为 需要 
应 用 的 模型 ， 男 一 个 参数 为 数据 的 测试 集 ， 输 出 结果 为 相应 的 模型 预测 
值 : 





> lm.predictions.ai <- predict(final.lm, clean.algae) 
> rt.predictions.ai <- predict(rt.ai, algae) 


上 面 两 个 命令 将 输出 2.6 节 中 得 到 的 预测 海藻 al 的 两 个 模型 的 预测 
值 。 注 意 ， 因 为 原始 训练 集 数 据 含 有 缺失 值 ， 所 以 在 线性 回归 模型 中 使 
用 的 数据 是 数据 框 clean.algae。 


得 到 模型 的 预测 值 后 ， 就 可 以 计算 出 其 平均 绝对 误 普 ， 如 下 所 未: 


> (mae.al.lm <- mean(abs(lm.predictions.al - algae[, "a1"]))) 
[1] 13.10681 
> (mae.al.rt <- mean(abs(rt.predictions.ai - algae[, “a1"]))) 


[1] 11.61717 








Fy — PAT AS ee Ee ELIT Re (MSE) 。 可 以 由 下 列 代码 计算 
均 方 误差 : 


> (mse.al.lm <- mean((1m.predictions.al - algae[, "a1"])~2)) 


[1] 295.5407 


> (mse.al.rt <- mean((rt.predictions.al - algae[, "a1"])~2)) 


{1] 271.3226 


后 一 种 误差 度量 方法 的 不 足 之 处 是 : 误差 值 和 目标 变量 的 单位 不 统 
一 ， 因 此 从 用 户 的 角度 看 ， 这 种 误差 不 好 解释 。 即 使 应 用 平均 绝对 误差 
(MAE) 来 度量 误差 ， 问 题 是 如 何 判 断 模型 的 得 分 是 好 还 是 产 。 能 够 
解决 这 一 问题 的 误差 度量 是 标准 化 后 的 平均 绝对 误差 (NMSE)。 这 一 








统计 量 是 计算 模型 预测 性 能 和 基准 模型 的 预测 性 能 之 间 的 比率 。 通 常 采 
用 目标 变量 的 平均 值 来 作为 基准 模型 ， 代 码 如 下 : 
> (nmse.ai.lm <- mean((lm.predictions.al-algae[,'a1'])^2)/ 
+ mean( (mean(algae{,'al'])-algaef{,'a1'] ) “2)) 
[1] 0.6473034 


> (nmse.ai.rt <- mean((rt.predictions.al-algae{,'al']) “2)/ 
+ mean ( (mean (algae [,'a1'])-algae{[,'a1'])^2)) 


[1] 0.5942601 





NMSE 是 一 个 比值 ， 其 取 值 范围 通常 为 0 一 1。 如 果 模 型 表现 优 于 这 
个 非常 简单 的 基准 模型 预测 ， 那 么 NMSE 应 明显 小 于 1。NMSE 的 值 越 
小 ， 模 型 的 性 能 就 越 好 。NMSE 的 值 大 于 1， 意 味 着 模型 预测 还 不 如 简 
单 地 把 所 有 个 案 的 平均 值 作 为 预测 值 ! 





在 本 书 提 供 的 R 添 加 包 中 ， 函 数 regr.eval0 用 来 计算 线性 回归 模型 的 
性 能 度量 指标 。 下 面 给 出 应 用 该 函数 一 个 例子 。 可 以 得 找 该 函数 的 帮助 
文档 来 获取 这 个 函数 的 不 同 用 法 。 











> regr.eval(algae[, "ai"], rt.predictions.al, train.y = algae[, 
+ "al"]) 


mae mse rmse nmse nmae 
11.6171709 271.3226161 16.4718735 0.5942601 0.6953711 


可 视 化 地 查看 模型 的 预测 值 将 更 加 有 趣 。 一 种 方法 是 绘制 误差 的 散 


扩 图 。 图 2-10 给 出 了 对 两 种 模型 的 预测 值 的 可 视 化 分 析 ， 这 是 由 以 下 的 
代码 产生 的 : 


> old.par <- par(mfrow = c(1, 2)) 

> plot(1m.predictions.ai, algae[, "a1"], main = "Linear Model", 

+ xlab = “Predictions", ylab = "True Values") 

> abline(0, 1, lty = 2) 

> plot(rt.predictions.ai, algae[{, "al"], main = "Regression Tree", 
+ xlab = "Predictions", ylab = "True Values") 

> abline(0, 1, lty = 2) 

> par(old.par) 
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图 2-10 模型 预测 值 和 真实 值 的 散 点 图 


从 图 2-10 中 可 知 ， 这 两 个 模型 在 许多 个 和 案 上 的 性 能 比较 差 。 在 理想 
的 情况 下 ， 模 型 对 所 有 的 案例 做 出 正确 的 预测 时 ， 图 中 的 所 有 圈 应 该 在 
虚线 上 ， 这 条 虚线 是 通过 函数 abline (0, 1, lty=2) 来 绘制 的 。 这 条 虚 
线 罕 过 坐标 系 的 原点 ， 代 表 x 坐 标 与 y 坐 标 相等 的 点 集 。 图 2-10 中 每 个 圆 





圈 的 x 坐 标 和 y 坐 标 分 别 代 表 目 标 变量 的 预测 值 和 真实 值 ， 如 采 它 们 相 
等 ， 那 么 这 些 圆 圈 就 会 落 在 这 条 理想 的 直线 上 。 正 如 从 图 2-10 中 所 观察 
到 的 ， 情 况 并 非 如 此 ! 可 以 用 函数 identify() 来 检查 那些 预测 特别 差 的 样 
本 点 ， 该 函数 可 以 让 用 户 通 过 互动 方式 点 击 图 形 中 的 点 ， 代 人 码 如 下 : 

> plot (lm.predictions.al,algaef{,'al'] ,main="Linear Model", 


+ xlab="Predictions",ylab="True Values") 


> abline(0,1,1ty=2) 
> algaefidentify (lm. predictions.al,algae[,'al']),] 


运行 上 面 的 代码 ， 并 在 图 形 上 点 击 ， 然 后 右 击 结束 交互 过 程 后 ， 应 


该 看 到 相应 于 所 点 击 的 圆 净 的 海 蓉 数 据 框 的 行 数据 一 一 因为 这 里 用 函数 
identify() 得 到 的 向 量 来 索引 海藻 数据 框 。 





























观察 图 2-10 的 左 图 ， 它 对 应 的 是 线性 回归 模型 。 注 意 ， 有 一 些 个 采 
的 海 党 频率 的 预测 值 为 负 值 。 在 本 案例 中 ， 海 沪 在 出 现 频率 为 负 值 时 没 
mi CBD Ee) 。 因 此 ， 可 以 用 以 上 知识 和 海 汇 频率 的 最 小 可 能 


值 来 优化 上 面 的 线性 回归 模型 。 





> sensible.lm.predictions.ail <- ifelse(lm.predictions.al < 


+ 0, O, 1m.predictions.ai) 
> regr.eval(algae[, "ai"], lm.predictions.al, stats = c("mae", 
+ "mse")) 

mae mse 


13.10681 295.54069 


> regr.eval(algae[, "al"], sensible.lm.predictions.al, stats = c("mae", 
+ "mse" )) 


mae mse 
12.48276 286.28541 


上 面 代码 应 用 函数 ifelse() 来 改进 模型 的 预测 结果 。 该 函数 有 三 个 参 
数 ， 第 一 个 参数 是 逻辑 条 件 ， 第 二 个 参数 是 当 逻 辑 条 件 为 真 时 函数 的 取 
值 ， 第 三 个 参数 是 当 逻 辑 条 件 不 成 并 时 函数 的 取 值 。 注 意 ， 通 过 这 一 小 
的 细节 就 提高 了 模型 的 性 能 


根据 以 上 计算 出 的 模型 的 性 能 指标 ， 我 们 倾 加 于 选择 回归 树 模 型 来 
预测 140 个 测试 样品 的 频率 值 ， 因 为 该 模型 有 较 低 的 NMSE 值 。 然 而 ， 
这 种 推理 有 一 个 缺陷 。 我 们 的 分 析 目 标 古 获得 能 够 对 140 个 测试 样品 的 
频率 进行 预测 的 最 佳 模型 。 由 于 不 知道 这 些 测试 样本 的 目标 变量 值 ， 所 
以 我 们 需要 估计 哪 一 个 模型 将 在 这 些 测试 样本 上 有 较 好 的 性 能 。 这 里 的 
关键 问题 是 在 不 知道 数据 集 真实 的 目标 变量 取 值 时 ， 要 获得 模型 在 该 数 
据 集 上 可 靠 的 性 能 估计 。 使 用 已 有 的 训练 数据 获得 模型 的 性 能 指标 如 
前 文 所 进行 的 过 程 》 是 不 可 靠 的 ， 因 为 这 些 计 算是 有 偏 的 。 实 际 上 ， 有 
的 模型 可 以 很 容易 地 获得 训练 数据 的 零 误 盈 预测 。 然 而 ， 模 型 的 这 一 优 
故 性 能 很 难 推 广 到 目标 变量 值 未知 的 新 样本 上 。 正 如 之 前 所 述 ， 这 种 现 











象 通常 称 为 过 度 拟 合 训练 数据 。 因 此 ， 为 了 选择 一 个 合适 的 模型 ， 我 们 
需要 获得 模型 在 未 知 数据 上 预测 性 能 的 更 加 可 靠 的 估计 。k 折 交叉 验证 
是 获得 模型 性 能 可 徘 估计 的 一 种 常用 方法 ， 它 适用 于 像 本 采 例 这 样 的 小 
数据 集 。 这 种 方法 可 以 简要 介绍 如 下 。 首 先 获 取 k 个 同样 大 小 的 随机 训 
练 数据 子 集 。 对 于 这 k 个 子 集 的 每 一 个 子 集 ， 用 除去 它 之 外 的 其 余 k-1 个 
子 集 建立 模型 ， 然 后 用 第 k 子 集 来 评估 这 个 模型 ， 最 后 存储 模型 的 性 能 
指标 。 对 其 余 的 每 个 子 集 重 复 以 上 过 程 ， 最 后 有 k 个 性 能 指标 的 测量 
值 ， 这 些 性 能 指标 是 通过 在 没有 用 于 建 模 的 数据 上 计算 得 到 的 ， 这 也 是 
关键 之 处 。k 折 交叉 验证 估计 是 这 k 个 性 能 指标 的 平均 。 常 见 的 选择 是 
k=10。 有 时 我 们 会 重复 进行 多 次 k 折 交叉 验证 以 获得 更 加 可 靠 的 估计 。 








总 之 ， 当 面 对 一 项 预测 任务 时 ， 需 要 做 出 下 列 决策 

:为 预测 任务 选择 模型 (同一 算法 的 不 同 参数 设 定 也 可 以 认为 是 不 
同 的 模型 ) 。 

:选择 比较 模型 性 能 的 评估 指标 。 

:选择 获取 评估 指标 的 可 靠 估 计 的 实验 方法 。 

在 书 提供 的 R 添 加 包 中 ， 提 供 了 函数 experimentalComparison()， 
用 来 进行 模型 的 选择 和 比较 任务 。 它 可 以 和 不 同 的 估计 方法 一 起 使 用 ， 


如 交叉 验证 法 。 这 个 函数 有 三 个 参数 : D 用 于 比较 的 数据 集 ; 
比较 的 可 选 模型 ，3) 实验 过 程 中 的 系数 。 我 们 以 海江 数据 集 为 例 ， 用 





它 来 比较 线性 回归 模型 和 几 个 不 同 的 回归 树 模 型 。 


函数 experimentalComparison() 适 用 于 任何 模型 和 任何 数据 ， 在 这 个 
意义 上 ， 它 古 一 个 泛 型 函数 。 使 用 者 提供 一 组 实现 竺 比较 的 模型 的 函 
数 。 其 中 每 一 个 函数 应 该 对 训练 集 和 测试 集 实 现 一 个 完整 的 “训练 + 测试 
+ 评估 ”周期 。 在 评估 过 程 的 每 一 次 过 代 中 ， 调 用 这 些 函 数 。 这 些 函 数 应 
该 返回 一 个 向 量 ， 其 元 素 为 交叉 验证 中 用 户 需 要 的 性 能 评估 指标 值 。 下 
面 给 出 两 个 目标 模型 的 函数 : 








> cv.rpart <- function(form,train,test,...) { 

m <- rpartXse(form,train,...) 

p <- predict(m, test) 

mse <- mean((p-resp(form, test) )~2) 

c(nmse=mse/mean ( (mean (resp(form, train) )-resp(form, test) )~2)) 
} 
cv.1lm <- function(form,train,test,...) { 

m <- 1m(form,train,...) 

p <- predict(m,test) 

p <- ifelse(p < 0,0,p) 

mse <- mean((p-resp(form, test) )~2) 

c (nmse=mse/mean ( (mean (resp(form, train) )-resp(form, test)) “2)) 


} 


++eeeeevVt tet t 


在 这 个 示例 中 ， 假 设 用 NMSE 作 为 线性 回归 模型 和 回归 树 模型 的 性 
能 评 佑 指标。 所 有 这 些 用 户 定 义 的 函数 的 前 三 个 参数 应 该 是 公式 、 训 练 
数据 和 测试 数据 。 实 验 过 程 调 用 函数 时 可 以 应 用 的 其 他 参数 包括 要 评估 
模型 所 需要 的 参数 。 昌 然 要 评估 的 两 个 模型 应 用 了 完全 不 同 的 学 习 算 
法 ， 但 是 两 个 模型 函数 部 有 同样 的 “训练 + 测试 + 评估 *” 周 期。 函数 的 定义 
中 还 包括 一 个 特殊 参数 “.……… 。 这 个 特殊 参数 可 以 用 在 任意 的 R 函 数 








中 ， 它 允许 一 个 特定 函数 具有 可 变 的 参数 。 其 实 ,“.……” 这 个 参数 结构 

一 列表 ， 它 用 来 获取 传递 给 函数 的 前 三 个 命名 参数 之 后 的 所 有 参数 。 
这 个 结构 用 于 给 实际 模型 传递 所 需要 的 额外 参数 (例如 在 函数 rpartXse() 
中 和 函数 Im0 中 ) 。 这 些 函 数 的 力 一 个 特殊 之 处 是 应 用 本 书 添加 包 提 供 
的 函数 resp0， 它 用 于 根据 公式 获得 数据 集 的 目标 变量 值 。 








在 定义 好 用 于 模型 学 习 和 测试 的 函数 后 ， 就 可 以 按 下 列 代码 进行 模 
型 的 交叉 验证 比较 : 


> res <- experimentalComparison( 


+ c(dataset(al ~ .,clean.algae[,1:12],'a1')), 
+ c(variants('cv.1m'), 

+ variants ('cv.rpart',se=c(0,0.5,1))), 

+ cvSettings (3,10,1234)) 


##### CROSS VALIDATION EXPERIMENTAL COMPARISON ##### 
** DATASET :: al 


++ LEARNER :: cv.lm variant -> cv.lm.defaults 
Repetition i 

Fold: 2 2 a 4 D T 8 9 19 
Repetition 2 

Ema: T 2 d Æ > 0 = © * Au 
Repetition 3 

Eola: T 2 SARS TESS I0 


++ LEARNER :: cv.rpart variant -> cv.rpart.vl 
Repetition 1 

Fold: 1 2 S4 D 6 7 & PT 
Repetition 2 

Faid: T 2 SA De Ta w 
Repetition 3 

Fold: 1 2S Ene To Ya 


++ LEARNER :: cv.rpart variant -> cv.rpart.v2 


Repetition 1 
Paras ia 2 F&F O82 FF S&S Bh ae 
Repetition 2 
Egiar 2 ge 4 SEE TF Se BO 
Repetition 3 
Fold: 2 2&8. S&S © TSB ek wW 


++ LEARNER :: cv.rpart variant -> cv.rpart.v3 

Repetition 1 

rola: 1 2 3 Aboge B 9S 10 

Repetition 2 

Fora: 12324656 & FT & S A 

Repetition 3 

Folds 3232245. er BP BO 

像 先 前 提 到 那样 ， 第 一 个 参数 是 含有 在 实验 比较 中 所 应 用 数据 集 的 

一 个 向 量 。 每 个 数据 集 的 声明 形式 为 datatset〈<<formula 之 ， 扫 data 
frame>, <label>) 。 nanan 的 第 二 个 参数 包含 
要 研究 的 可 选 的 模型 方法 。 每 一 个 模型 方法 通过 函数 variant() 来 指定 ， 
该 函数 的 第 一 个 参数 是 用 户 定义 的 用 于 “学 习 + 测 试 + 评估 ”周期 的 函数 名 
称 。 其 余 的 可 选 参数 用 来 给 出 估计 方法 的 其 他 参数 的 可 选 值 。 函 数 
variantes() 根 据 所 有 参数 值 的 组 合生 成 一 组 可 选 模型 。 在 上 面 例子 的 代 
码 中 ， 模 型 “cv.lIm” 采 用 了 默认 参数 值 ， 而 模型 “cv.rpart” 的 参数 se 则 给 出 
了 不 同 的 取 值 。 这 意味 着 实验 将 包含 回归 树 的 三 个 版 本 ， 这 点 可 以 在 上 
面 的 函数 输出 中 得 到 确认 。 函 数 experimentalComparison() 的 第 三 个 参数 
是 设 定 交 义 验证 实验 的 参数 ， 即 k 折 交叉 验证 过 程 重复 的 次 数 〈 这 里 设 
AZ) ~ KØRE 10) 、 随 机 数 生 成 器 的 种 子 。 最 后 的 参数 (随机 数 种 











T) 设 定 可 以 保证 在 必要 的 情况 下 可 以 重 现 我 们 的 实验 《例如 更 换 了 训 
练 模型 系统 ) 。 


这 个 代码 调用 的 结果 是 一 个 复杂 的 对 象 ， 它 包含 实验 比较 的 所 有 信 
kh. TEARS Pek Te RE ee. PEN, Fi 
代码 提供 了 比较 结果 的 概要 : 


> summary (res) 


== Summary of a Cross Validation Experiment == 
3 x 10 - Fold Cross Validation run with seed = 1234 


* Datasets :: al 
* Learners :: cv.lm.defaults, cv.rpart.vi, cv.rpart.v2, cv.rpart.v3 


* Summary of Experiment Results: 


-> Datataset: al 


*Learner: cv.im.defaults 
nmse 
avg 0.7196105 
std 0.1833064 
min 0.4678248 
max 1.2218455 
invalid 0.0000000 


*Learner: cv.rpart.vi 
nmse 
avg 0.6440843 


std 0.2521952 
min 0.2146359 
max 1.1712674 
invalid 0.0000000 


*Learner: cv.rpart.v2 
nmse 
avg 0.6873747 
std 0.2669942 
min 0.2146359 
max 1.3356744 
invalid 0.0000000 


*Learner: cv.rpart.v3 
nmse 
avg 0.7167122 
std 0.2579089 
min 0.3476446 
max 1.3356744 
invalid 0.0000000 





从 结果 中 可 知 ， 其 中 的 一 个 回归 树 有 最 优 的 平均 NMSE 值 。 这 个 
NMSE 值 是 否 明显 优 于 其 他 模型 ， 目 前 还 不 明显 ， 本 市 的 后 面 将 回 到 这 
个 问题 。 可 以 得 到 这 些 结果 的 可 视 化 图 形 〈 见 图 2-11〉。 代 码 如 下 : 








> plot (res) 


cv.rpart.v3 


cv.rpart.v2 


cv.rpart.vi 


cv.Im.defaults 





nmse 


图 2-11 交互 验证 结果 的 可 视 化 


函数 experimentalComparison0) 给 每 个 模型 一 个 标记 ， 如 果 你 想 知道 
任何 标记 模型 所 对 应 的 参数 ， 代 码 如 下 : 


> getVariant("cv.rpart.vi", res) 
Learner:: "“cv.rpart" 
Parameter values 

se = 0 


可 以 同时 对 所 有 7 个 预测 任务 进行 与 上 面相 似 的 比较 实验 。 执 行 以 
下 代码 ; 


> DSs <- sapply(names(clean.algae) {12:18], 

+ function(x,names.attrs) { 

+ f <- as.formula(paste(x,"~ .")) 

+ dataset (f, clean. algae[,c(names.attrs,x)],x) 
+ Fy 

+ names (clean.algae) [1:11]) 

> res.all <- experimentalComparison( 

+ DSs, 

+ c(variants('cv.1m'), 

+ variants ('cv.rpart',se=c(0,0.5,1)) 
T J 

+ cvSettings(5,10,1234)) 


为 了 节省 篇 幅 ， 我 们 省 略 了 以 上 代码 的 输出 。 上 面 代码 首先 创建 用 
于 比较 7 个 预测 任务 的 数据 集 向 量 。 对 每 一 个 预测 问题 需要 构建 一 个 公 
式 ， 该 公式 由 一 个 字符 串 构成 ， 它 是 数据 集中 相应 的 需要 预测 的 目标 变 
量 和 符号 “一 .” 连 接 而 成 的 。 然 后 ， 该 字符 串通 过 函数 as.formula0 转 换 为 
一 个 R 公 式 。 和 前 面 一 样 ， 创 建 用 于 函数 experimentalComparison() 的 数 
据 回 量 ， 不 同 的 是 要 重复 5 次 10 折 交叉 验证 以 提高 统计 结果 的 显著 性 。 
根据 计算 机 的 运行 速度 ， 这 条 指令 可 能 要 运行 一 会 儿 。 




















图 2-12 展 现 了 在 交叉 验证 方法 下 ， 模 型 对 不 同 海藻 的 结果 。 绘 制图 
2-12 的 代码 如 下 : 


> plot (res.all) 


从 图 2-12 中 可 知 ， 有 几 个 很 差 的 结果 ， 也 就 是 说 ， 几 个 NMSE 值 明 
显 大 于 1。 测 试 结果 比 简 单 地 采用 目标 变量 的 平均 值 这 一 基准 模型 还 要 














El 如 有 果 需 要 知道 每 个 问题 对 应 的 最 优 模型 ， 可 以 应 用 函数 
bestScores()， 代 码 如 下 : 


> bestScores(res.all) 


$ai 
system score 
nmse cv.rpart.vi 0.64231 


$a2 

system score 
nmse cv.rpart.v3 1 
$a3 

system score 
nmse cv.rpart.v2 i 
$a4 

system score 
nmse cv.rpart.v2 1 
$a5 


system score 


nmse cv.lm.defaults 0.9316803 


$a6 
system score 
nmse cv.lm.defaults 0.9359697 


$a7 
system score 
nmse cv.rpart.v3 1.029505 


cv.rpart.v3 
cv.rpart.v2 
Cv.rpart.v1 


cv.Im.defaults 





0 § 1 15 G § 1h 15 20 


nmse 


图 2-12 PRA BEAD TES YT HL 


上 面 结果 说 明 ， 除 了 海 滞 1 外 ， 其 他 海 党 的 预测 结果 都 不 好 。 图 2- 
12 给 出 的 结果 变 差 表明 ， 组 合 方法 也 许 是 一 种 好 的 预测 模型 。 组 合法 是 
一 种 模型 构建 方法 ， 它 通过 产生 大 量 可 选 模型 并 把 这 些 模型 进行 组 合 ， 
这 样 得 到 的 模型 可 以 克服 单个 模型 的 局 限 性 。 有 许多 方法 来 得 到 组 合 模 
型 ， 这 些 不 同 的 模型 不 仅 在 于 获取 模型 的 方法 不 同 “ 例 如 ， 获 取 模型 的 
训练 集 数据 的 不 同 、 变 量 不 同 、 建 模 方 法 不 同 ) ， 也 在 于 组 合 预 测 的 不 
同 。 随 机 森林 〈Breiman，2001) 被 视 为 组 合 模型 有 竞争 性 的 例子 之 
一 ， 它 由 大 量 的 树 模 型 〈 回 归 树 或 者 分 类 树 ) 构成 。 每 个 树 是 完全 生长 








《没有 事后 剪 枝 ) ， 在 树 生 长 的 每 一 步骤 ， 最 好 的 结 点 分 割 方法 将 从 变 
量 集合 的 一 个 随机 子 集中 选取 。 回 归 任务 的 预测 采用 组 合 中 预测 结果 的 
平均 值 。R 的 添加 包 randomForest (Liaw and Wiener, 2002) 的 函数 
randomForest() 实 现 回 归 树 的 思想 。 以 下 代码 是 重复 先前 交叉 验证 ， 这 
次 是 包含 三 个 版 本 的 随机 森林 模型 ， 在 组 合 中 每 个 模型 有 不 同 数目 的 
树 ， 这 里 又 一 次 把 输出 忽略 。 











> library (randomForest) 

> cv.rf <- function(form,train,test,...) { 

+ m <- randomForest (form,train,...) 

p <- predict (m, test) 

mse <- mean((p-resp(form, test) )~2) 

c (nmse=mse/mean ( (mean (resp(form, train) )-resp(form, test) )~2)) 


res.all <- experimentalComparison( 
DSs, 
c(variants('cv.1n'), 


+ 
+ 
+ 
+} 
> 
+ 
+ 
+ variants ('cv.rpart',se=c(0,0.5,1)), 


+ 


variants('cv.rf',ntree=c (200,500, 700)) 
Zs 
+ cvSettings(5,10,1234)) 


+ 


应 用 函数 bestScores()， 能 证 实 组 合 方法 的 优势 : 


> bestScores(res.all) 


$ai 


$a2 


mmse 


$a3 


$ad 


nmse 


$a5 


nmse 


$a6 


nmse 


$a7 


system 
cv.rf.v3 


system 
cv.rf.v3 


system 
cv.rf.v2 


system 
cv.rf.v3 


system 
cv.rf.vi 


system 
cv.rf.v3 


score 
0.5447361 


score 
0.7777851 


score 
0.9946093 


score 
0.9591182 


score 
0.7907947 


score 
0.9126477 


system score 


nmse cv.rpart.v3 1.029505 


事实 上 ， 除 了 海藻 7 以 外 的 所 有 问题 ， 最 好 的 结果 是 由 随机 森林 的 
某 些 变 体 给 出 的 。 而 且 ， 结 果 不 是 总 是 很 好 ， 尤 其 是 对 于 海江 7。 函 数 
bestScoresO 并 没有 告诉 我 们 这 些 最 佳 模型 和 剩余 其 他 模型 之 间 的 区 别 是 











个 显 圭 。 也 就 是 次 ， 采 用 另外 的 随机 数据 我 们 能 得 到 相似 结果 的 可 能 性 
古 多 少 ? 本 书 提供 的 R 添 加 包 中 的 函数 compAnalysis0 可 以 提供 这 一 信 
恩 。 它 对 一 个 模型 和 其 他 为 一 个 模型 进行 成 对 的 Wilcoxon 检 验 。 下 面 举 
例 说 明 该 函数 的 茶 些 应 用 。 


对 于 海藻 1、2、4 和 6， 模 型 “cv.rf.v3” 是 最 好 的 。 下 面 的 代码 将 给 出 
这 一 论断 的 统计 显著 性 : 


> compAnalysis(res.all,against='cv.rf.v3', 
datasets=c('al','a2','a4','a6')) 


== Statistical Significance Analysis of Comparison Results == 


Baseline Learner: : cv.rf.v3 (Learn.1) 
** Evaluation Metric:: nmse 
- Dataset: al 


Learn.1 Learn.2 sig.2 Learn.3 sig.3 Learn.4 sig.4 


AVG 0.5447361 0.7077282 ++ 0.6423100 + 0.6569726 ++ 
STD 0.1736676 0.1639373 0.2399321 0. 2397636 
Learn.5 sig.5 Learn.6 sig.6 Learn.7 sig.7 


AVG 0.6875212 ++ 0.5490511 0.5454724 


STD 0.2348946 0.1746944 0.1766636 
- Dataset: a2 
Learn.i Learn.2 sig.2 Learn.3 sig.3 Learn.4 sig.4 
AVG 0.7777851 1.0449317 ++ 1.0426327 ++ 1.01626123 ++ 
STD 0.1443868 0.6276144 0.2005522 0.07435826 
Learn.5 sig.5 Learn.6 sig.6 Learn.7 sig.7 
AVG 1.000000e+00 ++ 0.7829394 0.7797307 
STD 2.389599e-16 0.1433550 0.1476815 
- Dataset: a4 
Learn.1 Learn.2 sig.2 Learn.3 sig.3 Learn.4 sig.4 
AVG 0.9591182 2.111976 1.0073953 + 1.000000e+00 + 
STD 0.3566023 3.118196 0. 1065607 2.774424e-16 
Learn.5 sig.5 Learn.6 sig.6 Learn.7 sig.7 
AVG 1.000000e+00 + 0.9833399 0.9765730 
STD 2.774424e-16 0.3824403 0.3804456 


~ Dataset: a6 
Learn.i Learn.2 sig.2 Learn.3 sig.3 Learn.4 sig.4 
AVG 0.9126477 0.9359697 ++ 1.0191041 1.000000e+00 
STD 0.3466902 0.6045963 0.1991436 2.451947e-16 
Learn.5 sig.5 Learn.6 sig.6 Learn.7 sig.7 
AVG 1.000000e+00 0.9253011 0.9200022 
STD 2.451947e-16 0.3615926 0.3509093 


Legends: 

Learners -> Learn.1 = cv.rf.v3 ; Learn.2 = cv.lm.defaults ; 

Learn.3 = cv.rpart.vi ; Learn.4 = cv.rpart.v2 ; Learn.5 = cv.rpart.v3 ; 
Learn.6 = cv.rf.vi ; Learn.7 = cv.rf.v2 ; 

Signif. Codes -> 0 '++' or '--' 0.001 '+' or '-' 0.05 '' 1 


上 面 结 果 中 的 “sig.X" 列 提供 了 我 们 需要 的 信息 。 如 果 这 一 列 没有 任 
何 标 识 符号 则 意味 着 相应 的 模型 和 “cv.rf.v3” 模 型 之 间 有 显著 差异 的 可 能 
性 低 于 95% 《检查 图 例 以 理解 符号 的 含义 ) 。 加 号 (“+”) 意味 着 相应 
模型 的 平均 性 能 估计 指标 显著 高 于 模型 “cv.rf.v3”。 由 于 好 的 模型 对 应 较 
低 的 NMSE 值 ， 所 以 该 模型 的 性 能 比 模型 “cv.rf.v3” 差 。 减 号 (“-”) 的 含 








义 相 反 。 


从 输出 结果 可 以 确认 ， 随 机 森林 不 同 版 本 之 间 的 差异 在 统计 上 通 种 
不 显著 。 与 其 他 模型 相 比 ， 在 大 部 分 情况 下 ， 随 机 森林 模型 有 显著 的 优 


势 。 


可 以 对 在 其 他 海藻 上 有 最 优 性 能 的 模型 进行 如 上 类 似 的 分 析 ， 只 要 
在 函数 compAnalysisO 的 参数 against 和 datasets 上 取 不 同 的 值 即 可 。 


模型 选择 和 模型 评价 的 参考 文献 


在 不 同 的 模型 间 进 行 比较 和 选择 一 直 是 许多 研究 的 主题 。 其 中 ， 我 
们 建议 参考 Diettetich (1998) 、Provost 等 (1998) 、Nemenyi (1969) 和 


Demsar (2006) 的 书 。 


关于 组 合 学 习 方 法 ， 也 有 大 量 的 文献 。 我 们 重点 推荐 (Breiman, 
1996) 关于 bagging 的 书 ， (Freund and Shapire, 1996; Shapire, 1990) 关 
J boosting) Æ- Dietterich (2000) 是 一 篇 很 好 的 关于 这 些 主题 的 一 个 综 


2.8 ”预测 7 类 海藻 的 频率 


本 节 将 学 习 如 何 给 出 7 类 海藻 140 个 测试 样本 的 频率 预测 值 。2.7 节 
描述 了 如 何 选择 预测 值 的 最 佳 模 型 ， 给 出 了 通过 交叉 验证 实验 过 程 来 得 
到 7 个 预测 任务 的 预测 模型 的 无 偏 NMSE 估 计 方 法 。 








本 章 数据 挖掘 案例 的 主要 目的 是 得 到 140 个 水 样 的 7 个 海 洛 的 频率 值 
预测 。 每 一 个 预测 任务 都 采用 交叉 验证 过 程 给 出 的 最 佳 模 型 进行 预测 ， 
这 个 最 佳 模型 将 是 2.7 节 中 调用 函数 bestScoresO 所 显示 的 模型 之 一 ， 也 吏 
是 从 模型 “cv.rf.v3” “cv.rf.v2” “cvrf.v12 或 “cv.rpartv3” 中 选择 最 佳 
的 。 











下 面 应 用 所 有 可 得 的 训练 数据 来 构建 模型 ， 并 将 得 到 的 模型 应 用 到 
测试 数据 集 。 注 意 ， 为 了 简单 ， 在 构建 回归 树 时 ， 采 用 k 近 邻 填 补 法 填 
充 数 据 杠 cdlean.algae 的 NA 值 。 这 样 就 避免 回归 树 采 用 它 自 喘 的 缺失 值 处 
理 方法 。 随 机 森林 本 身 没 有 缺失 值 处 理 方法 ， 因 此 把 数据 框 clean.algae 
作为 它 的 训练 集 数据 。 下 面 的 代码 可 以 同时 获得 所 有 7 个 模型 : 








> bestModelsNames <- sapply(bestScores(res.all), 

+ function(x) x['nmse','systenm'] ) 
> learners <- c(rf='randomForest',rpart='rpartXse') 

> funcs <- learners[sapply(strsplit (bestModelsNames,'\\.'), 


+ function(x) x[2])] 
> parSetts <- lapply(bestModelsNames, 
+ function(x) getVariant (x,res.all)@pars) 


> bestModels <- list() 
> fora in 1:7) { 


+ form <- as.formula(paste(names(clean.algae)[il+a],'~ .')) 

+  bestModels[[a]] <- do.call(funcs[a], 

+ c(list (form, clean.algae[,c(1:11,11+a)]),parSetts[[a]])) 
+ } 





上 面 的 代码 中 得 到 了 一 个 向 量 ， 其 元 素 为 每 一 个 预测 任务 的 最 优 模 
型 。 可 以 得 到 保存 最 优 模型 向 量 funcs 中 的 相应 最 优 模型 的 R 函 数 名 。 可 
以 通过 函数 strsplit0) 来 提取 模型 的 名 称 ， 这 一 步骤 需要 用 到 复杂 的 函数 
合 。 为 了 理解 整个 过 程 ， 可 以 把 以 上 获取 函数 名 的 这 个 函数 复合 分 开 
来 执行 。 每 一 个 最 优 模 型 的 参数 赋 给 列表 parSetts。 函 数 getVariantO 给 出 
相应 给 定名 称 的 模型 ， 这 个 函数 的 返回 〈 对 象 ) 值 是 模型 类 对 象 。 这 些 
对 象 有 不 同 的 “属性 ”， 其 中 一 个 是 名 为 pars 的 属性 ， 它 包含 模型 参数 列 
表 。 对 象 的 属性 可 以 用 R 的 操作 符 “@” 来 访问 。 最 后 ， 得 到 最 优 模型 并 
把 它们 赋 给 列表 bestModels。 对 于 每 一 个 海 党 ， 如 前 面 一 样 构 建 公式 ， 
然后 通过 孙 数 do.call0) 调 用 适当 设置 的 相应 的 R 函 数 。 函 数 do.call0 可 以 
调用 任何 函数 ， 它 的 第 一 个 参数 是 作为 字符 串 的 函数 名 ， 第 二 个 参数 是 
包含 调用 函数 所 需 参数 的 一 个 列表 。 执 行 do.call0 函 数 后 ， 得 到 预测 相 
应 7 个 海藻 类 频率 的 最 优 模 型 ， 然 后 就 可 以 应 用 这 些 模 型 对 测试 集 进行 


预测 。 

















本 书 提供 的 R 添 加 包 的 数据 框 test.algae 含 有 140 个 测试 水 样 ， 这 个 测 
试 集 中 也 含有 缺失 值 。 因 此 ， 第 一 步 是 用 前 面 的 方法 来 填补 缺失 值 。 首 
先 尝试 对 测试 集 数 据 框 应 用 函数 knnImputation() 来 填补 缺失 值 ， 该 方法 
可 行 ， 但 问题 是 这 里 有 些 违背 预测 模型 的 黄金 法 则 “不 要 应 用 测试 集中 
的 任何 信息 来 建立 预测 模型 ”。 因 此 ， 如 采 直 接 在 测试 集 上 应 用 
knnImputation0 函 数 ， 它 将 应 用 测试 集 数 据 寻找 10 个 最 近邻 值 ， 并 以 此 
来 填补 缺失 值 。 应 用 目标 变量 信息 来 建立 模型 是 绝对 错误 的 ， 尽 管 我 们 
没有 犯 该 错误 ， 但 是 可 以 避免 应 用 测试 集 数 据 来 填补 缺失 值 。 方 法 是 应 
用 训练 集 数据 中 的 10 个 最 近邻 元 素来 填补 测试 集中 的 缺失 值 。 这 样 就 更 
加 贴 合 实际 ， 也 更 正确 。 实 际 上 ， 我 们 可 能 是 依次 获取 水 样 ， 一 次 得 到 
一 个 水 样 。 函 数 knnImputation() 有 一 个 特殊 的 参数 ， 可 以 用 训练 集 数 据 
来 填补 测试 集中 的 缺失 值 。 用 法 如 下 : 























> clean.test.algae <- knnImputation(test.algae, k = 10, distData = algae[, 
+ 1:11]) 


可 以 设置 函数 knnImputation() 的 参数 distData 来 指定 特定 的 数据 集 ， 
从 该 数据 集中 找到 测试 集 数据 框 test.algae 中 有 缺失 数据 案例 的 10 个 最 近 
邻 值 。 注 意 ， 由 于 测试 数据 集 没 有 目标 变量 的 信息 ， 因 此 在 数据 集 algae 
中 忽略 了 目标 变量 。 





下面 束 可 以 获取 整个 测试 数据 集 的 预测 值 窍 了 泗 ， 代 码 如 下 : 


> preds <- matrix(ncol=7,nrow=140) 
> for(i in 1:nrow(clean.test.algae)) 
+ preds[i,] <- sapply(1:7, 
function (x) 
predict (bestModels[[x]],clean.test.algae[i,]) 
) 


++ + 


在 上 面 的 简单 代码 中 ， 需 要 的 7x140 个 预测 值 存 储 在 和 矩阵 preds 中 。 
在 这 个 预测 问题 中 ， 由 于 测试 集 目标 变量 值 实际 上 是 已 知 的 ， 所 以 可 以 
把 预测 值 和 真实 值 进行 比较 ， 据 此 可 以 评价 预测 结果 的 质量 。 测 试 集 数 
据 的 真实 值 在 本 书 R 添 加 包 的 数据 框 algae.sols 中 。 下 面 的 代码 计算 模型 
的 NMSE 值 : 





> avg.preds <- apply(algae[, 12:18] ,2,mean) 
> apply( ((algae.sols-preds)*“2), 2,mean) / 
+ apply( (scale(algae.sols,avg.preds,F)“2),2,mean) 


al a2 a3 a4 a5 a6 a7 
0.4650380 0.8743948 0.7798143 0.7329075 0.7308526 0.8281238 1.0000000 


首先 得 到 计算 NMSE 值 时 需要 用 到 的 基准 模型 的 预测 值 ， 这 里 是 目 
标 变 量 平 均值 的 预测 。 基 准 预 测 由 一 行 代码 完成 ， 它 初 看 起 来 有 点 复 
旦 你 理解 了 该 代码 ， 你 将 惊异 它 的 简洁 性 。 函 数 scale0 用 来 标准 
化 数据 集 ， 如 果 第 三 个 参数 不 是 FALSE， 它 从 第 一 个 参数 中 减 去 第 二 个 
参数 ， 然 后 除 以 第 三 个 参数 ， 如 上 面 的 代码 所 示 。 在 上 面 的 例子 中 ， 我 
们 用 该 函数 从 矩阵 数据 的 每 一 行 中 减 去 一 个 向 量 《〈 即 所 有 7 个 藻类 的 平 
均 目 标 变量 值 ) 。 





得 到 的 结果 和 前 面 交 叉 验 证 的 估计 结果 相 一 致 。 和 也 再 次 确认 很 难 





得 到 海 党 7 的 较 好 预测 ， 而 其 他 海江 的 估计 结果 则 相对 较 好 ， 海 党 1 的 估 


计 结 果 最 佳 。 





总 之 ， 通 过 适当 的 模型 选择 过 程 ， 就 可 以 得 到 这 些 预 测 问题 的 恰当 


[1] 警告 : 如 果 打 印 对 象 bestModels， 输 出 结果 可 能 充满 整个 屏幕 
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fEAAB HR TAI SRB, KAEH BE TEBE AER 
据 此 ， 从 数据 挖掘 的 标准 而 言 ， 这 里 选 了 一 个 较 小 的 问题 。 本 章 描述 了 
如 何在 R 中 进行 一 些 最 基本 的 数据 分 析 任 务 。 

















如 果 你 要 了 解 基于 本 章 数据 的 国际 数据 分 析 比 赛 的 内 容 ， 可 以 浏览 
比赛 的 网 站 趾 ， 或 者 阅读 一 些 有 关 获 奖 答案 的 文章 (Bontempi et al., 
1999; Chan, 1999; Devogelaere et al.，1999; Torgo, 1999b) ， 然 后 
比较 文章 作者 所 用 的 数据 分 析 策 略 。 





就 数据 挖掘 而 言 ， 本 案例 描述 了 下 列 内 容 : 
-数据 可 视 化 

-描述 性 统计 分 析 

处 理 缺 失 值 的 策略 

回归 分 析 

回归 分 析 的 评价 指标 


多 元 线性 回归 


回归 树 


通过 k 折 交互 验证 来 进行 模型 选择 和 比较 


-模型 组 合 和 随机 和 森林 


经 过 上 面 的 和 学习， 希望 读者 熟悉 交互 式 应 用 R 的 方法 ， 熟 悉 RR 的 一 
些 特性 。 也 就 是 说 ， 应 该 学 习 下 列 R 的 技能 : 


' 读 入 文本 数据 文件 


-如何 得 到 数据 集 的 描述 性 统计 量 


基本 的 数据 可 视 化 方法 


如何 处 理 有 缺失 值 的 数据 


:如何 构建 回归 模型 


-如何 应 用 模型 得 到 测试 集 的 预测 值 


本 书 接 下 来 的 案例 研究 将 给 出 上 面 更 多 的 细节 和 数据 挖掘 技巧 。 


[1] http://www.erudit.de/erudit/competitions/ic-qq/. 


第 3 章 ”预测 股票 市 场 收 益 





本 书 的 第 二 个 案例 是 对 数据 挖掘 技术 更 深 一 层 的 使 用 。 我 们 将 分 析 
把 数据 挖掘 工具 和 技术 应 用 到 具体 商业 问题 中 所 面临 的 困难 。 这 里 以 建 
并 目 动 股票 交易 系统 这 一 具体 问题 为 例 。 基 于 股票 的 每 日 交易 数据 ， 首 
先 建立 预测 模型 ， 然 后 据 此 分 析 如 何 建立 股票 交易 系统 。 我 们 的 目标 是 
预测 S&P 500《 标 准 普尔 500) 股票 指数 的 未 来 收益 ， 为 此 首先 建立 了 
几 个 预测 模型 ， 然 后 这 些 模型 结合 给 定 的 交易 策略 产生 市 场 上 的 交易 决 
朱 〈 即 买卖 信 与 )。 本 章 主 要 讲解 几 个 新 的 数据 挖掘 问题 ， 它 们 是 : 
D 如 何 使 用 R 来 分 析 存 储 在 数据 库 中 的 数据 ; 2) 如何 对 具有 时 间 顺 序 
的 观测 值 “ 即 时 间 序 列 ) EAT TO; 3) 把 模型 预测 结果 转化 为 现实 应 
用 中 的 决策 和 行动 。 




















3.1 问题 摘 述 与 目标 

















对 数据 挖掘 而 言 股 票 市 场 区 易 是 个 具有 巨大 潜力 的 应 用 领域 。 事 实 
上 ， 由 于 大 量 历史 数据 的 存在 ， 人 工 对 这 些 数据 进行 检测 是 很 困难 的 ， 
而 数据 挖掘 技术 对 大 数据 有 先天 的 优势 。 故 一 方面 ， 有 学 者 声称 ， 市 场 
在 价格 调整 上 适应 之 快 ， 以 至 于 根本 没有 空间 可 以 得 到 稳定 的 收益 。 这 
就 是 有 名 的 有 效 市 场 假设 。 这 个 理论 先后 被 一 些 更 宽松 的 版 本 所 取代 ， 
即 由 于 短暂 的 市 场 无 效 ， 市 场 还 是 有 一 些 交易 机 会 空间 的 。 











股票 交易 的 总 体 目标 是 维持 一 个 基于 买卖 订单 的 股票 组 合 。 长 期 目 
标 就 是 从 这 些 股票 交易 中 获取 尽 可 能 多 的 利润 。 本 章 对 股票 组 合 简化 ， 
只 “交易 ”一 只 单一 的 证 券 ， 这 里 采用 股票 市 场 指数 一 一 标准 普尔 指数 。 
对 于 给 定 的 证 券 和 初始 资金 ， 我 们 将 尝试 通过 交易 行为 ( 买 入 、 买 出 、 
持 有 ) ， 在 未 来 一 段 测 试 期 使 利润 最 大 化 。 应 用 数据 挖掘 技术 得 到 结 
给 出 信号 ， 然 后 据 此 作为 决策 的 基础 来 制定 交易 集 略 。 在 该 过 程 中 ， 我 
们 应 用 标准 普尔 500 指 数 的 历史 数据 来 预测 未 来 的 指数 变化 。 因 此 我 们 
的 预测 模型 将 包含 进 一 个 交易 系统 中 ， 该 交易 系统 应 用 模型 的 预测 结果 
来 生成 决策 。 总 体 的 评估 标准 就 是 该 区 易 系 统 的 性 能 ， 即 该 交易 系 统 的 
交易 所 产生 的 利润 或 者 损失 ， 以 及 对 投资 者 有 意义 的 一 些 其 他 统计 指 
标 。 因 此 ， 我 们 的 主要 评价 指标 是 应 用 数据 挖掘 过 程 发 现 的 知识 来 进行 
交易 所 产生 的 结果 ， 而 不 是 在 该 过 程 中 所 开发 的 模型 的 预测 准确 性 。 


























3.2 ”可 用 的 数据 


在 我 们 的 采 例 中 将 关注 交易 标准 普尔 500 指 数 。 这 个 指数 的 日 常数 
据 在 很 多 地 方 都 可 以 获得 ， 比 如 Yahoo 财 经 网 站 中 。 





我 们 要 用 到 的 数据 可 以 在 本 书 的 添加 包 中 得 到 。 同 时 ， 为 了 说 明 有 R 
的 功能 ， 我 们 会 给 出 获取 该 数据 的 其 他 方式 。 为 外， 这 些 获取 数据 的 方 
式 可 以 让 你 把 本 章 学 到 的 知识 应 用 到 最 近 的 数据 中 ， 而 不 是 仅仅 限于 截 
止 本 书写 作 时 打包 的 数据 。 








为 了 通过 本 书 的 R 程 序 包 得 到 这 些 数 据 ， 可 以 在 R 中 输入 : 


> library (DMwR) 
> data(GSPC) 





只 有 先前 没有 在 当前 的 R 会 话 中 执行 第 一 条 指令 的 情况 下 ， 第 一 条 
站 令 才 需要 输入 。 第 二 条 指令 载 入 一 个 GSPC 1 对象， 该 对 象 是 xts 类 
的 。 我 们 将 在 3.2.1 节 讲解 xts 类 对 象 。 现 在 ， 只 要 把 它 作 为 一 个 矩阵 或 者 
数据 框 来 操作 即 可 (比如 head (GSPC) ) 。 





在 本 书 的 网 站 趾 中 ， 可 以 找到 两 种 格式 的 数据 。 第 一 种 是 逗号 分 
隔 值 (Comma Separated Value,CSV) 文件 ， 它 可 以 被 读 到 R 中 (如 第 2 
ATI) 。 男 一 种 格式 是 MySQL 数 据 库 导 出 文件 ， 可 以 用 它 在 MySQL 





中 生成 一 个 存放 S&P 500 的 数据 库 。 我 们 将 说 明 如 何在 R 中 导入 这 两 种 
格式 的 数据 。 有 具体 采用 哪 种 格式 的 数据 ， 完 全 取决 于 你 自己， 或 者 你 也 
可 以 采用 最 简单 的 方式 一 一 直接 应 用 本 书 提供 的 R 添 加 包 中 的 数据 。 本 
章 的 其 他 部 分 〈 导 入 数据 之 后 的 分 析 部 分 ) 与 你 所 应 用 的 存储 数据 的 方 
WERK» 








为 了 完整 ， 我 们 也 给 出 了 为 一 种 将 数据 读 到 R 中 的 方法 ， 即 直接 从 
数据 网 站 上 下 载 需 要 的 数据 。 注 意 ， 如 果 选 择 这 种 方式 ， 那 么 你 所 应 用 
的 数据 集会 比 本 章 中 的 数据 集 大 很 多 。 





不 管 采 用 哪 种 方式 获取 数据 ， 股 票 的 日 交易 数据 应 该 包括 下 面 几 个 
属性 : 


当日 最 高 价 


当日 最 低 价 


当日 收盘 价 


当日 成 交 量 


当日 调整 后 的 收盘 价 中 


3.2.1 ”在 R 中 处 理 与 时 间 有 关 的 数据 


这 个 案例 中 用 到 的 数据 和 时 间 有 关 ， 即 每 个 观测 值 有 一 个 时 间 标 
签 。 该 类 数据 常 称 为 时 间 序列 数据 。 由 于 每 个 观测 值 都 有 一 个 给 定 的 时 
间 标 签 ， 所 以 时 间 序 列 数据 的 重要 特征 是 观测 值 之 间 的 先后 顺序 很 重 
要 。 一 般 来 说 ， 时 间 序 列 就 是 随机 变量 Y 的 一 组 有 序 的 观测 值 ， 即 : 





0 (3-1) 








这 里 yt 是 时 间 序 列 变 量 Y 在 时 间 t 的 观测 值 。 








时 间 序 列 分 析 的 主要 目的 根据 变量 过 去 的 观测 值 y ，y2 ，.……， 
Yo 来 构造 一 个 模型 ， 据 此 可 以 对 时 间 序列 未 来 的 取 值 进 行 预测 ， 
即 预测 ys o oo wae 








在 本 章 的 股票 数据 案例 中 ， 由 于 我 们 在 同一 个 时 间 点 上 观测 了 多 个 
变量 ， 它 们 各 自 是 Open、High、Low、Close、Volume 和 AdjClose |， 
所 以 该 类 型 的 时 间 序 列 常 称 为 多 元 时 间 序 列 。 


R 有 多 个 添加 包 用 于 对 这 类 数据 进行 分 析 ， 这 些 包 提供 了 特殊 的 类 
来 存储 不 同类 型 的 时 间 序 列 数 据 。 而 且 ，R 有 许多 函数 用 于 这 些 不 同类 
型 的 时 间 序 列 数 据 ， 例 如 特殊 的 绘图 函数 等 。 


对 于 处 理 时 间 序 列 数据 ，R 中 最 灵活 的 添加 包 有 zoo (Zeileis and 


Grothendieck, 2005) 和 xts (Ryan and Ulrich, 2010) 。 这 两 个 包 提 供 
类 似 的 功能 ， 但 是 xts 包 提供 了 用 ISO 8601 时 间 字 符 串 来 获取 数据 子 集 等 
更 多 的 方法 。 在 技术 上 ，xts 类 扩充 了 zoo 类 ， 每 个 xts 类 都 同时 是 一 个 
z00 类 ， 因 此 zoo 类 对 象 的 所 有 方法 都 可 以 应 用 到 xts 类 对 象 。 本 章 的 分 析 
主要 是 应 用 xts 对 象 。 注 意 ，zoo 和 xts 都 是 R 的 附加 包 ， 它 们 在 R 的 基本 安 
装 中 是 没有 的 ， 在 应 用 之 前 需要 先 下载 并 安装 它们 〈 参 见 1.2.1 节 ) 。 





下 面 举例 说 明 如 何 创建 和 应 用 xts 对 象 。 


> library(xts) 

> x1 <- xts(rnorm(100), seq(as.POSIXct("2000-01-01"), len = 100, 
+ by = "day")) 

> x1[1:5] 


[,1] 
2000-01-01 0.82029230 
2000-01-02 0.99165376 
2000-01-03 0.05829894 
2000-01-04 -0.01566194 
2000-01-05 2.02990349 


> x2 <- xts(rnorm(100), seq(as.POSIXct("2000-01-01 13:00"), 
+ len = 100, by = "min")) 
> x2[1:4] 


(,1] 
2000-01-01 13:00:00 1.5638390 
2000-01-01 13:01:00 0.7876171 
2000-01-01 13:02:00 1.0860185 
2000-01-01 13:03:00 1.2332406 


> x3 <- xts(rnorm(3), as.Date(c("2005-01-01", "2005-01-10", 
+ "2005-01-12"))) 
> x3 


[,1] 
2005-01-01 -0.6733936 
2005-01-10 -0.7392344 
2005-01-12 -1.2165554 


函数 xts() 的 第 一 个 参数 接收 时 间 序 列 数据 。 该 数据 可 以 是 一 个 向 
量 ,， 或 者 如 果 时 间 序 列 是 多 元 时 间 序 列 ， 该 参数 也 可 以 是 一 个 矩阵 1 
。 在 第 二 种 情况 下 ， 秆 阵 的 每 一 列 解 释 为 一 个 变量 在 不 同时 间 点 〈 即 每 
一 行 ) 上 的 抽样 值 。 第 二 个 参数 是 时 间 标 签 ， 它 可 以 是 R 时 间 类 的 任何 
一 种 形式 。 在 上 面 的 示例 中 ， 用 到 了 R 表 示 时 间 信 息 的 两 个 最 常用 的 时 
间 类 : POSIXct 类 《或 POSIXlt 类 ) 和 Date 类 。 有 许多 和 这 些 类 相关 联 的 




















函数 可 以 用 来 操作 这 些 类 中 的 时 间 信 息 ， 详 细 参 见 R 的 帮助 文档 。 例 
如 ， 在 第 1 章 中 我 们 用 seq0 函 数 来 生成 一 系列 数 ， 这 里 我 们 用 该 函数 
生成 一 个 基于 时 间 的 序列 。 








在 上 面 的 例子 中 ， 如 果 去 挥 时 间 标 签 ， 那 么 这 些 时 间 友 列 对 象 可 以 
像 “ 正 第 ”对 象 一 样 进行 索引 标准 的 向量 子 集 ) 。 我 们 经 常 需 要 基于 与 
时 间 有 关 的 条 件 来 获取 这 些 友 列 的 子 集 。 采 用 xts 对 象 可 以 有 多 种 方式 实 
现 它 ， 举 例如 下 : 











> xif[as.POSIXct ("2000-01-04")] 


[,1] 
2000-01-04 -0.01566194 


> x1["2000-01-05"] 


[,1] 
2000-01-05 2.029903 


> x1["20000105"] 


[,1] 
2000-01-05 2.029903 


> x1["2000-04"] 


2000-04-01 01:00:00 0. 
2000-04-02 01:00:00 -0. 
2000-04-03 01:00:00 1. 
2000-04-04 01:00:00 -0. 
. 0436033 


2000-04-05 01:00:00 1 


2000-04-06 01:00:00 -0. 
. 4501869 
- 4123785 


2000-04-07 01:00:00 -1 
2000-04-08 01:00:00 -1 


2000-04-09 01:00:00 0. 


> x1["2000-03-27/"] 


2000-03-27 01:00:00 0. 
2000-03-28 01:00:00 -0. 


2000-03-29 01:00:00 0. 
2000-03-30 01:00:00 0 
2000-03-31 01:00:00 -0. 
2000-04-01 01:00:00 0. 
2000-04-02 01:00:00 -0. 
2000-04-03 01:00:00 1 
2000-04-04 01:00:00 -0. 
2000-04-05 01:00:00 1 
2000-04-06 01:00:00 -0， 
2000-04-07 01:00:00 -1 
2000-04-08 01:00:00 -1 
2000-04-09 01:00:00 0. 


[,1] 
2379293 
1005608 
2982820 
1454789 


3782062 


7864352 


[,1] 
10430346 
53476341 
96020129 


.01450541 


29507179 
23792935 
10056077 


. 29828201 


14547894 


. 04360327 


37820617 


. 45018695 
.41237847 


78643516 


> x1["2000-02-26/2000-03-03"] 


[,1] 
2000-02-26 1.77472194 
2000-02-27 -0.49498043 
2000-02-28 0.78994304 
2000-02-29 0.21743473 
2000-03-01 0.54130752 
2000-03-02 -0.02972957 
2000-03-03 0.49330270 


> x1["/20000103"] 


[,1] 
2000-01-01 0.82029230 
2000-01-02 0.99165376 
2000-01-03 0.05829894 


第 一 个 命令 中 的 参数 是 一 个 具体 的 时 间 值 对 象 ， 它 和 创建 x1 对 象 的 
函数 的 第 二 个 参数 的 对 象 的 类 是 一 样 的 。 其 他 的 例子 展示 了 xts 包 中 强大 
的 子 集 索 引 功能 ， 它 是 xts 包 优 于 R 中 的 其 他 时 间 序 列 包 的 地 方 之 一 。 这 
里 的 子 集 索 引 把 时 间 标 签 作为 字符 串 ， 其 一 般 格式 为 : CCYY-MM-DD 
HH: MM: SS[.s]。 上 述 格式 的 不 同 段 之 间 的 分 隔 符 可 以 省 略 ， 该 格式 
的 某 些 部 分 可 以 忽略 以 用 于 表示 一 个 时 间 标 签 集合 。 另 外 ，“/ 符 号 可 以 
用 于 上 述 格式 的 开始 或 结尾 ， 用 以 表示 某 个 时 间 段 。“/”* 符 号 在 结尾 表示 
以 该 时 间 开 始 的 时 间 段 ，“/* 符 号 在 开始 表示 以 该 时 间 结 束 的 时 间 段 。 








多 元 时 间 序 列 可 以 用 类 似 的 方式 建立 ， 例 如 : 


> mts.vals, <- matrix(round(rnorm(25) ,2) ,5,5) 
> colnames(mts.vals) <- paste('ts',1:5,sep="') 
> mts <- xts(mts.vals,as.POSIXct (c('2003-01-01','2003-01-04', 


+ 
> mts 


tsi 


'2003-01-05' ,'2003-01-06' ,'2003-02-16') )) 


ts2 ts3 ts4 ts5 


2003-01-01 0.96 -0.16 -1.03 0.17 0.62 
2003-01-04 0.10 
2003-01-05 0.38 0.03 -0.09 -0.64 1.37 
2003-01-06 0.73 0.98 -0.66 0.09 -0.89 
2003-02-16 2.68 0.10 1.44 1.37 -1.37 


1.64 -0.83 -0.55 0.49 


> mts[{"2003-01",c("ts2", "ts5")] 


2003-01-01 
2003-01-04 
2003-01-05 
2003-01-06 


ts2 
-0.16 
1.64 
0.03 
0.98 


ts5 
0.62 
0.49 
Ear 
-0.89 





函数 index() 和 time() 可 以 用 来 “获取 ”任意 xts 对 象 的 时 间 标 签 信息 ， 
coredata() 函 数 用 来 获取 时 间 序 列 的 观测 值 。 例 如 : 


> index (mts) 


[1] "2003-01-01 WET" "2003-01-04 WET" "2003-01-05 WET" "2003-01-06 WET" 
[5] "2003-02-16 WET" 


> coredata(mts) 


tsi ts2 ts3 ts4 ts5 
[1,] 0.96 -0.16 -1.03 0.17 0.62 
[2,] 0.10 1.64 -0.83 -0.55 0.49 
[3,] 0.38 0.03 -0.09 -0.64 1.37 
[4,] 0.73 0.98 -0.66 0.09 -0.89 
[5,] 2.68 0.10 1.44 1.37 -1.37 





总 之 ，xts 对 象 可 以 用 于 存储 带 有 不 规则 时 间 标 签 的 多 元 时 间 序 列 ， 
它 足以 用 来 存储 股票 交易 数据 ， 并 能 提供 强大 的 子 集 索引 功能 。 


[1] http:/ /finance.yahoo.com. 

D] 在 我 们 下 载 行情 数据 的 雅虎 财经 网 站 ， 标 准 普尔 500 指 数 的 股票 编号 
为 GSPC。 

[3] http://www.liaad.up.pt/ ~ltorgo/DataMiningWithR. 

[4] 该 价格 是 调整 了 股票 分 割 、 分 红 、 配 股 等 之 后 的 价格 。 

[5] ”事实 上 ,更 严格 地 说 ， 这 里 应 该 只 有 两 个 时 间 序 列 ( 价 格 Price 和 成 
交 量 Volume) ， 因 为 所 有 的 报价 是 同一 个 变量 (价格 Price) 在 一 天 中 不 
同时 间 的 取样 。 

[6] 这 意味 着 不 能 在 xts 中 有 像 数据 框 那样 的 混合 类 型 数据 。 


17” 事实 上 ， 这 里 是 应 用 于 类 POSIXt 的 泛 型 函数 seq0 的 一 个 特殊 方法 。 


可 以 输入 “? seq.POSIXt” 获 得 该 函数 的 更 多 信息 。 


3.2.2 ”从 CSV 文 件 读 取 数据 





如 前 文 所 述 ， 本 书 网 站 有 本 章 案 例 的 各 种 数据 格式 。 如 果 你 决定 用 
CSV 数 据 文件 ， 需 要 先 下 载 该 数据 文件 ， 它 的 前 面 几 行 为 : 


"Index" "Open" "High" "Low" "Close" "Volume" "AdjClose" 
1970-01-02 92.06 93.54 91.79 93 8050000 93 
1970-01-05 93 94.25 92.53 93.46 11490000 93.46 
1970-01-06 93.46 93.81 92.13 92.82 11460000 92.82 
1970-01-07 92.82 93.38 91.93 92.63 10010000 92.63 


1970-01-08 92.63 93.47 91.99 92.68 10670000 92.68 
1970-01-09 92.68 93.25 91.82 92.4 9380000 92.4 
1970-01-12 92.4 92.67 91.2 91.7 8900000 91.7 


假如 你 已 经 下 载 了 该 文件 ， 并 且 用 文件 名 “sp500.csv” 保 存在 当前 运 
行 R 的 目录 中 ， 那 么 可 以 把 数据 载 入 到 R 中 并 用 之 创建 一 个 xts 对 象 ， 代 
码 如 下 所 示 : 


> GSPC <- as.xts(read.zoo("sp500.csv", header = T)) 


假如 CSV 数 据 文件 的 第 一 列 为 时 间 标 签 ， 则 zoo [里 的 read.zoo0) 函 
数 可 以 读 取 该 CSV 数 据 文件 并 把 数据 转换 为 z00 对 象 。 函 数 as.xts0) 把 读 
取 的 结果 对 象 转换 为 xts 对 象 。 


[1] 你 可 能 要 问 这 里 为 什么 不 调用 函数 libtaty0 来 载 入 添加 包 zoo。 原 因 是 


xts 添 加 包 依 赖 于 添加 包 zoo0， 当 载 入 xts 包 时 就 同时 载 入 了 zoo 包 。 


3.2.3 从 网 站 上 获取 数据 


获取 S&P 500 指 数 的 另 一 种 方法 是 使 用 Yahoo 财 经 网 站 提供 的 免费 
服务 ， 它 允许 以 CSV 数 据 文件 格式 下 载 股 票 报价 。R 的 tseries 添 加 包 门 
有 函数 get.hist.quote()， 该 函数 可 以 用 来 下 载 报价 数据 到 一 个 z00 对 象 。 
下 面 就 是 一 个 使 用 该 函数 获取 S&P 500 报 价 的 例子 。 


> library(tseries) 
> GSPC <- as.xts(get.hist.quote("“GSPC",start="1970-01-02", 
quote=c("Open", "High", "Low", "Close", "Volume", "AdjClose”))) 


> head (GSPC) 


Open High Low Close Volume AdjClose 
1970-01-02 92.06 93.54 91.79 93.00 8050000 93.00 
1970-01-05 93.00 94.25 92.53 93.46 11490000 93.46 


1970-01-06 93.46 93.81 92.13 92.82 11460000 92.82 
1970-01-07 92.82 93.38 91.93 92.63 10010000 92.63 
1970-01-08 92.63 93.47 91.99 92.68 10670000 92.68 
1970-01-09 92.68 93.25 91.82 92.40 9380000 92.40 


于 函数 get.hist.quote() 返 回 一 个 zoo0 类 的 对 象 ， 所 以 我 们 用 函数 
as.xts() 把 该 对 象 转换 为 一 个 xts 对 象 。 注 意 ， 如 果 运 行 该 命令 ， 我 们 将 得 
到 比 本 书 R 包 中 所 提供 的 数据 更 大 的 一 个 数据 集 。 如 果 想 确保 本 章 后 面 
的 命令 得 到 和 本 书 中 同样 的 结果 ， 应 该 应 用 以 下 的 代码 : 


> GSPC <- as.xts(get.hist.quote("“GSPC", 
start="1970-01-02", end='2009-09-15', 
quote=c("Open", "High", "Low", “Close", "Volume", "AdjClose"))) 


这 里 ，“2009-09-15” 是 本 书 添加 包 中 的 GSPC 对 象 的 最 后 一 个 记录 交 
易 日 期 。 


另外 一 种 通过 网 络 获取 数据 的 方法 (我 们 后 面 会 看 到 ， 这 不 是 唯一 
的 方法 ) 是 应 用 quantmod (Ryan, 2009) 包 中 的 函数 getSymbols()。 
quantmod 包 是 R 的 添加 包 ， 在 应 用 之 前 确保 该 包 已 经 安装 。 该 包 提 供 了 
与 分 析 金 融 数据 有 关 的 功能 ， 本 章 将 应 用 这 些 功能 。 函 数 getSymbols() 
和 该 包 中 的 其 他 函数 一 起 提供 了 获取 不 同 来 源 交 易 数据 的 相对 简单 、 但 
是 功能 强大 的 方法 。 下 面 举例 说 明 该 函数 的 用 法 : 








> library (quantmod) 
> getSymbols("“GSPC") 





函数 getSymbols() 的 第 一 个 参数 是 一 个 符 写 集合 ， 该 函数 将 从 不 同 
网 站 或 本 地 数据 库 中 提取 这 些 符 写 所 对 应 的 交易 数据 ， 然 后 默认 返回 与 
符号 同名 的 xts 对 象 后 。 这 些 操作 都 是 在 R 工 作 环境 下 自动 完成 的 。 你 可 
以 证 实 返 回 的 对 象 数据 与 本 书包 中 数据 的 时 间 不 是 完全 相同 ， 列 的 名 称 
也 有 不 同 。 可 以 通过 下 列 代码 修正 : 





> getSymbols("“GSPC", from = "1970-01-01", to = "2009-09-15") 
> colnames(GSPC) <- c("Open", "High", "Low", "Close", "Volume", 
+ "AdjClose") 


事实 上 ， 在 quantmod 包 提供 的 框架 中 ， 可 以 有 多 个 
相关 数据 源 ， 每 个 都 有 各 自 的 参数 。 
函数 setSymbolsLookup0 来 指定 ， 如 下 所 示 : 


> setSymbolLookup (IBM=1list (name='IBM' ,Src='yahoo')， 


+ 


> getSymbols(c('IBM' ,'USDEUR' ) ) 
> head(IBM) 


2007-01-03 
2007-01-04 
2007-01-05 
2007-01-08 
2007-01-09 
2007-01-10 


> head (USDEUR) 


Fx? TA 


NEE 


来 自 不 同 的 


这 些 设置 都 可 以 在 R 会 话 开 始 时 用 


USDEUR=1list (name='USD/EUR' , src='oanda) ) 


97.18 
97.25 
97.60 
98.50 
99.08 
98.50 


USDEUR 


2009-01-01 0.7123 
2009-01-02 0.7159 
2009-01-03 0.7183 
2009-01-04 0.7187 
2009-01-05 0.7188 
2009-01-06 0.7271 


98.40 
98.79 
97.95 
99.50 
100.33 
99.05 


96.26 
96.88 
96.91 
98.35 
99.07 
97.93 


在 上 面 的 代码 中 ， 我 们 指定 了 两 个 名 
站 : IBM 数 从 Yahoo 网 站 获取 ; USDEUR (美元 和 欧元 ) 的 汇率 数据 从 


Oanda 网 站 D 获取 。 


这 些 是 是 通 


97.27 
98.31 
97.42 
98.90 
100.07 
98.89 


9196800 
10524500 
7221300 
10340000 
11108200 
8744800 





IBM.Open IBM.High IBM.Low IBM.Close IBM.Volume IBM. Adjusted 


92.01 
93.00 
92.16 
93.56 
94.66 
93.55 


FS POT DV ASR ET HS BH HY 





函数 getSymbolsLookupO 完 成 的 。 在 当前 R 会 话 中 ， 当 调 


用 getSymbolsO 函 数 获取 以 上 设置 的 标识 符 数 据 时 ， 将 应 用 由 函数 


getSymbolsLookup() 所 做 的 相关 设置 。 


函数 saveSymbolLookupO 和 


loadSymbolLookup0) 分 别 用 来 在 不 同 的 R 会 话 中 保存 和 载 入 这 些 设置 。 
如 果 需 要 这 些 函 数 的 更 多 例子 和 详细 解释 ， 请 参照 R 中 这 些 函 数 的 帮助 
文档 。 


[1 需要 首先 安装 该 添加 包 。 
2] 需要 首先 安装 添加 包 。 


[3] http://www.oanda.com. 


3.2.4 ”从 MySQL 数 据 库 读 取 数据 





另 一 种 存储 数据 的 形式 是 在 MySQL 数 据 库 里 。 在 本 书 的 网 站 上 ， 
有 一 个 包含 SQL 语句 的 文件 ， 它 可 以 下 载 并 用 MySQL 来 执行 ， 从 而 上 载 
S&P 500 数 据 到 一 个 数据 库 表 里 。 有 关 应 用 和 创建 MySQL 数 据 库 的 内 容 
可 以 参阅 1.3 节 。 


创建 一 个 数据 库 来 存储 数据 后 ， 束 可 以 准备 执行 SQL 语句 了 。 假 设 
该 文件 和 输入 的 MySQL 命 令 在 同一 个 目录 下 ， 同 时 ， 创 建 的 数据 库 名 
为 Quotes。 登 录 到 MySQL， 然 后 输入 : 

mysql> use Quotes; 
mysql> source sp500.sq1; 

文件 “sp500.sqj" 中 的 SQL 语句 将 创建 一 个 名 为 gspc 的 数据 表 ， 并 把 
这 个 案例 中 用 到 的 数据 插入 到 表 中 。 你 可 以 在 MYSQL 中 执行 以 下 语句 
来 确认 数据 表 已 正常 建立 : 





mysql> show tables; 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Tables_in_Quotes | 
$------------------ + 
| gspe | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


1 row in set (0.00 sec) 


mysql> select * from gspc; 


最 后 一 条 SQL 语句 会 输出 大 量 数据 ， 即 标准 普尔 500 的 报价 数据 。 
如 果 你 想 要 限制 输出 的 数据 ， 你 可 以 在 以 上 命令 句 末尾 添加 limit 10. 





在 R 中 有 两 种 方式 和 数据 库 进 行 通 信 。 一 种 方式 是 基于 ODBC 协 
议 ， 男 一 种 是 基于 DBI 包 提供 的 通用 接口 和 每 个 数据 库 管理 系统 
(DBMS) 专 有 的 包 。 


如 果 你 决定 应 用 ODBC 协 议 ， 那 么 你 要 确认 可 以 应 用 该 协议 和 数据 
库 通 信 ， 这 可 能 需要 在 数据 库 端 安装 相关 的 驱动 程序 。 在 R 端 ， 需 要 的 
是 安装 RODBC 包 。 








DBI 包 实现 了 一 系列 的 数据 库 接口 函数 ， 这 些 函 数 独立 于 实际 上 存 
储 数 据 的 数据 库 服务 器 。 只 需要 在 最 初 和 数据 库 建 并 连接 时 指出 用 户 将 
应 用 哪 一 个 通信 接口 。 当 改变 数据 库 时 ， 你 只 要 改变 一 条 指令 即 可 《该 
指令 指出 你 希望 通信 的 数据 库 ) 。 为 了 获取 这 种 独立 性 ， 用 户 需 要 安装 
其 他 的 R 包 来 处 理 不 同 数据 库 的 通信 细 市 。 对 于 常用 的 数据 库 ，R 有 许 
多 专 有 的 数据 库 包 。 这 里 ， 为 了 和 存储 于 服务 器 上 的 MySQL 数 据 库 通 





信 ， 我 们 需要 RMySQL 包 (James and DebRoy, 2009) 。 
3.2.4.1 在 Windows 系 统 上 加 载 数据 到 R 中 


如 果 在 Windows 系 统 上 运行 R， 那 么 无 论 MySQL 数 据 库 服务 器 是 在 
该 台 计算 机 上 ， 还 是 在 另 一 台 计 算 机 上 《可 以 是 其 他 操作 系统 ) ， 从 R 
连接 该 数据 库 的 最 简便 方法 是 通过 ODBC (开放 数据 库 互 连 ) 协议 。 为 
了 在 R 中 使 用 这 个 协议 ， 需 要 安装 RODBC 添 加 包 。 


一 次 使 用 ODBC 协 议 连 接任 何 MySQL 数 据 库 前 ， 需 要 一 些 额 外 的 
步 又， 即 你 需要 在 Windows 系 统 上 安装 MySQL ODBC 张 动 程序 ， 它 称 
为 “myodbc”， 可 以 从 MySQL 网 站 上 下 载 。 这 个 步骤 只 在 第 一 次 使 用 
ODBC 来 连接 MySQL 数 据 库 时 需要 。 安 装 好 这 个 驱动 程序 后 ， 就 可 以 创 
建 到 MySQL 数 据 库 的 连接 ， 这 个 数据 库 可 以 是 在 你 的 计算 机 上 或 者 其 
他 可 以 从 网 络 中 访问 到 的 计算 机 上 。 根 据 ODBC 协 议 ， 创 建 的 每 个 数据 
库 连 接 都 有 一 个 名 字 ( 根 据 ODBC 的 术语 ， 该 连接 称 为 数据 源 名 ) 。 这 
个 名 字 用 来 从 R 来 访问 MySQL 数 据 库 。 








在 Windows 计 算 机 上 创建 一 个 ODBC 连 接 ， 需 要 一 个 称 为 “ODBC 数 
据 源 ”的 程序 ， 可 以 在 Windows 系 统 的 控制 面板 上 找到 该 程序 。 运 行 这 
个 程序 后 ， 需 要 用 MySQL ODBC 了 驱动 程序 (myodbc) 创建 一 个 新 的 用 
户 数据 源 。 在 创建 数据 源 的 过 程 中 ， 有 几 个 问题 会 问 到 ， 比 如 MySQL 
服务 器 地 址 《如 果 是 本 机 ， 则 为 localhost， 如 果 是 远程 主机 ， 则 形 如 





J 需要 建立 连接 的 数据 库 名 ; 还 有 该 连接 的 名 称 。 一 
旦 完成 这 个 过 程 后 ， 就 可 以 从 R 连 接 MySQL 数 据 库 了 。 


以 下 R 代 码 建 立 了 一 个 到 Quotes 数 据 库 的 连接 ， 并 且 把 S&P 500 数 
据 加 载 到 R。 


> library (RODBC) 

> ch <- odbcConnect ("QuotesDSN" , uid="myusername", pwd="mypassword") 
> allQuotes <- sqlFetch(ch, “gspc") 

> GSPC <- xts(allQuotes[,-1],order.by=as.Date(allQuotes[,1])) 

> head(GSPC) 


Open High Low Close Volume AdjClose 
1970-01-02 92.06 93.54 91.79 93.00 8050000 93.00 


1970-01-05 93.00 94.25 92.53 93.46 11490000 93.46 
1970-01-06 93.46 93.81 92.13 92.82 11460000 92.82 
1970-01-07 92.82 93.38 91.93 92.63 10010000 92.63 
1970-01-08 92.63 93.47 91.99 92.68 10670000 92.68 
1970-01-09 92.68 93.25 91.82 92.40 9380000 92.40 


> odbcClose (ch) 


加 载 RODBC 包 后 ， 用 先前 创建 的 DSN |"! 使 用 odbcConnectO 函 数 建 
立 与 数据 库 的 连接 。 然 后 用 sqlFetchO 函 数 〈 它 包含 了 表格 的 所 有 行 ， 并 
作为 数据 框 对 象 返回 ) 查询 数据 表 。 下 一 个 步骤 就 是 利用 日 期 信息 和 交 
易 数 据 从 这 个 数据 框 创建 一 个 xts 对 象 。 最 后 ， 用 odbcClose() 函 数 关 闭 与 
数据 库 的 连接 。 





当 使 用 特别 大 的 数据 库 时 ， 这 里 要 注意 的 是 : 如 果 碍 询 产 生 的 结果 





太 多 ， 以 至 于 计算 机 内 存 存 储 不 下 ， 那 么 你 就 不 得 不 用 其 他 的 策略 。 你 
可 以 莹 试 对 数据 进行 分 块 处 理 ， 这 需要 在 函数 sqlFetchO0 和 
sqlFetchMore() 中 设置 max 参 数 。 


也 可 以 考虑 应 用 其 他 方法 ， 例 如 考虑 R 中 提供 高 性 能 和 并 行 计 算 功 
Ae) WK, fff CAoler etal., 2010) 。 


3.2.4.2 ”在 Linux 系 统 上 加 载 数据 


如 果 在 类 UNIX 系 统 上 运行 R， 那 么 连接 MySQL 数 据 库 最 容易 的 途 
径 是 通过 DBI 包 与 RMySQL 包 的 结合 。 这 里 ，ODBC 协 议 对 Linux 系 统 也 
是 可 用 的 。 有 了 RMySQL 包 后 ， 你 就 不 需要 像 应 用 RODBC 包 那样 的 准 
备 步 又 。 安 装 完 RMYSQL 包 后 ， 你 就 可 以 开始 使 用 它 ， 用 法 如 下 所 示 : 


library (DBI) 
library (RMySQL) 


MO VNT FM N 


head (GSPC) 


Open High 
1970-01-02 92.06 93.54 
1970-01-05 93.00 94.25 
1970-01-06 93.46 93.81 
1970-01-07 92.82 93.38 
1970-01-08 92.63 93.47 
1970-01-09 92.68 93.25 


> dbDisconnect (ch) 
[1] TRUE 


> dbUnloadDriver(drv) 


加 载 包 后 ， 用 函数 dbDriver() 和 dbConnect() 打 开 与 数据 库 的 连接 。 
H o 问 数据 库 发 送 一 个 SQL 碍 询 ， 然 后 收 到 一 个 数据 框 结 
果 。 通 常情 况 下 ， 把 结果 转换 为 xts 对 象 后 ， 用 dbDisconnect() 和 


drv <- dbDriver("MySQL") 
ch <- dbConnect (drv,dbname="Quotes", "myusername", "mypassword") 
allQuotes <- dbGetQuery(ch,"select * from gspc") 
GSPC <- xts(allQuotes[,-1],order.by=as.Date(allQuotes[,1])) 


Low 
91.79 
92.53 
92.13 
91.93 
91.99 
91.82 


Close 
93.00 
93.46 
92.82 
92.63 
92.68 
92.40 


Volume AdjClose 


8050000 
11490000 
11460000 
10010000 
10670000 

9380000 





dbUnloadDriver() 关 闭 数据 库 连接 。 


另外 ， 可 以 应 用 quantmod 包 提供 的 函数 来 应 用 MySQL 数 据 库 中 的 
数据 。 事 实 上 ， 可 以 把 MySQL 数 据 库 作为 沙 数 getSmbols0 〇 的 一 个 数据 


源 。 示 例如 下 : 


93.00 
93.46 
92.82 
92.63 
92.68 
92.40 


> setSymbolLookup(GSPC=list (name='gspc',src='mysql', 

+ db.fields=c('Index','Open','High','Low','Close','Volume','AdjClose'), 
+ user='xpto',password='ypto',dbname='Quotes') ) 

> getSymbols('GSPC') 


[1] "GSPC" 


[1] 这 里 要 用 你 在 Windows 控 制 面板 中 创建 的 数据 源 (DSN) 和 你 的 
MyYSQL 用 户 名 和 窗 码 。 


[2] http:/ /cran.at.r-project.org/web/views/HighPerformanceComputing.html. 


3.3 ”定义 预测 任务 





一 般 来 说 ， 本 章 的 目的 是 预测 S&P 500 指 数 的 未 来 价格 ， 据 此 可 以 
及 时 进行 交易 以 从 中 获 利 。 有 了 分 析 目 标 后 ， 就 可 以 容易 地 定义 模型 需 
要 预测 的 对 象 一 一 预测 价格 时 间 序 列 的 未 来 值 。 然 而 ， 即 使 面 对 这 个 简 
单 的 任务 ， 我 们 也 立即 面临 几 个 问题 ，1)〉 采 用 哪 一 个 每 日 价格 ;，2) 预 
测 未 来 哪个 时 间 。 这 些 问题 并 不 容易 回答 ， 它 通常 取决 于 在 下 达 交 易 命 
令 时 如 何 应 用 预测 结果 。 











3.3.1 ”预测 什么 


3.5 市 将 学 习 的 交易 集 略 假设 我 们 可 以 预测 未 来 几 天 的 市 场 变 化 趋 
势 。 如 果 这 个 预测 在 未 来 被 验证 是 正确 的 ， 那 么 基于 该 预测 下 达 的 交易 


指令 将 是 获 利 的 。 


假设 从 交易 方面 看 ， 我 们 认为 价格 变动 超过 p% 时 值得 交易 〈 即 获 
利 超过 交易 费用 ) 。 在 这 个 假设 下 ， 我 们 需要 预测 模型 来 预测 在 未 来 k 
天 中 是 否 能 够 获得 这 个 边际 利润 中 。 注 意 ， 在 这 k 天 中 ， 实 际 上 可 以 观 
察 的 价格 可 能 蜗 于 这 个 比例 和 低 于 这 个 比例 。 这 意味 着 ， 预 测 未 来 茶 个 
特定 时 间 t+k 的 报价 可 能 不 是 最 好 的 方法 。 事 实 上 ， 我 们 需要 预测 的 是 
在 未 来 k 天 中 价格 总 的 动态 变化 ， 并 不 是 预测 茶 个 特定 时 间 的 一 个 特定 











价格 。 例 如 ， 在 时 间 t+k 的 收盘 价 的 变化 可 能 比 p% 低 得 多 ， 但 是 在 它 前 
HAH ......, t+k 的 价格 变化 可 能 远 远 大 于 p%。 因 此 ， 我 们 事实 上 需 
要 的 是 未 来 k 天 的 总 体 价格 趋势 。 











我 们 从 报价 数据 计算 一 个 变量 ， 它 可 以 作为 未 来 k 天 的 趋势 指标 
值 。 这 一 指标 值 应 与 我 们 对 接 下 来 的 k 天 能 够 获得 p% 的 价格 变化 的 信心 
相关 。 在 这 个 阶段 ， 重 要 的 是 要 注意 ， 当 我 们 提 到 p% 的 变化 时 ， 它 的 
意思 是 高 于 或 低 于 目前 的 价格 。 这 里 的 想法 是 ， 正 的 变化 将 导致 严 入 ， 
而 负 的 变化 将 触发 夹 出 行动 。 这 里 我 们 给 的 指标 把 趋势 作为 一 个 单一 的 
值 ， 正 值 表 示 同 上 的 趋势 ， 负 值 表 示 价 格 向 下 的 趋势 。 








假设 每 天 的 平均 价格 可 以 由 下 面 公式 来 近似 : 


— C.+H. +L 
P A (3-2) 


其 中 ，Ci 、Hi 和 Li 分 别 为 第 i 天 的 收盘 价 、 最 高 价 和 最 低 价 。 





设 Vi 代表 未 来 k 天 的 平均 价格 相对 今天 收盘 价 的 百分比 变化 〈 通 各 
称 为 算术 收益 ) : 





K= {2 C, } (3-3) 


我 们 把 动态 变化 绝对 值 超过 目标 收益 p% 的 变化 进行 素 加 作为 一 个 


指标 变量 IT 


r= py ive V; :v > p% Vue — p% | (3-4) 





指标 变量 T 用 来 找 出 在 k 天 内 ， 日 平均 价格 明显 高 于 目标 变化 的 那些 
日 期 的 变化 之 和 。 大 的 正 I 值 意味 着 有 几 天 的 日 平均 报价 高 于 今天 收盘 
价 的 p9%， 这 种 情况 表明 有 潜在 的 机 会 发 出 买 入 指令 ， 因 为 有 民 好 的 预 
期 价格 会 上 涨 。 另 一 方面 ， 大 的 负 工 值 表 明 价 格 可 能 下 降 ， 可 以 进行 卖 
出 行动 。 如 果 T 值 接近 零 ， 则 可 能 是 由 于 价格 平稳 波动 或 者 价格 涨 跌 互 
现 ， 正 的 变化 和 负 的 变化 互相 抵消 。 

















下 面 的 函数 实现 这 个 简单 的 指标 : 


> T.ind <- function(quotes, tgt.margin = 0.025, n.days = 10) { 
+ v <- apply(HLC(quotes), 1, mean) 

+ r <- matrix(NA, ncol = n.days, nrow = NROW(quotes)) 

+ for (x in 1i:n.days) r[, x] <- Next(Delt(v, k = x), x) 

+ x <- apply(r, 1, function(x) sum(x[x > tgt.margin | x < 
+ -tgt.margin])) 

+ if (is.xts(quotes)) 

+ xts(x, time(quotes)) 

+ else x 

E 


根据 式 〈3-2) ， 函 数 痛 先 计算 平均 价格 。 函 数 HLCO 从 价格 对 象 中 
提取 价格 的 最 高 价 、 最 低 价 和 收盘 价 。 然 后 ， 计 算 示 来 n.days 天 相对 当 
前 收盘 价 的 收益 。 函 数 next() 按 时 间 平 移 一 个 时 间 序 列 〈 同 前 或 癌 


后 ) 。Delt0 函 数 可 用 于 计算 价格 序列 的 百分比 收益 或 对 数 收 益 。 最 
后 ，T.ind0O) 函 数 将 绝对 值 大 的 收益 相 加 ， 也 就 是 说 ， 收 益 超 过 目标 变化 
收益 ， 默 认 设 置 为 2.59%。 





图 3-1 可 以 更 好 地 理解 指标 T 的 性 质 ， 绘 图 的 代码 如 下 : 


> candleChart(last(GSPC, "3 months"), theme = "white", TA = NULL) 

> avgPrice <- function(p) apply(HLC(p), 1, mean) 

> addAvgPrice <- newTA(FUN = avgPrice, col = 1, legend = "AvgPrice") 
> addT.ind <- newTA(FUN = T.ind, col = "red", legend = "tgtRet") 

> addAvgPrice(on = 1) 

> addT.ind() 


last(GSPC, "3 months") [2009-07-01 01:00:00/2009-09-15 01:00:00] 


AvgPrice (on = 1) :1050.697 





图 3-1 最 后 3 个 月 的 标准 普尔 500 指 数 和 我 们 的 指标 线 图 


函数 candleChart() 绘 制 股票 价格 的 K 线 图 。K 线 图 用 一 个 彩色 的 框 和 
坚 直 的 柱 条 来 代表 每 日 报价 情况 。 柱 条 代表 当天 的 最 高 、 最 低 价 格 ， 而 
框 代 表 开盘 价 和 收盘 价 。 框 的 颜色 用 来 表示 框 的 顶部 所 代表 的 价格 〈 开 
盘 价 还 是 收盘 价 ) ， 即 在 一 天 中 价格 是 下 降 ( 图 3-1 中 为 黑色 ， 而 交互 
TRH NAAR) 还 是 上 升 〈 图 3-1 中 为 白色 ， 在 R 中 给 出 的 为 绿 
色 ) 。 我 们 在 同一 张 K 线 图 中 ， 增 加 了 另外 两 个 指标 : 平均 价格 (和 K 
线 在 同一 张 图 上 ) 和 T 指 标 〈 下 面 ) 。 函 数 newTAO 可 用 于 绘制 新 的 函 
数 指标 并 加 入 到 已 有 的 K 线 图 中 。 该 函数 的 返回 值 是 一 个 绘图 函数 [4 ! 
这 意味 着 可 以 像 调 用 R 的 其 他 函数 一 样 来 调用 对 象 addT.ind 和 对 象 
addAvgPrice。 这 由 最 后 两 条 指令 来 完成 ， 每 一 条 指令 把 一 个 指标 绘制 
到 前 面 用 candleChartO 得 到 的 K 线 图 中 。 每 条 指令 都 增加 一 个 指标 让 
candleChartO 函 数 产 生 初 始 几 形 。 调 用 函数 addAvgPrice0 的 参数 为 1， 这 
意味 着 该 指标 将 被 绘制 到 第 一 个 图 形 窗 口中 ， 即 前 面 得 到 的 K 线 图 中 。 
调用 函数 addT.indO 时 采用 默认 参数 (而 不 是 设 为 1) ， 这 导致 在 K 线 图 
下 绘制 新 的 图 形 。 由 于 指标 T 的 量 纲 和 K 线 图 不 同 ， 所 以 在 男 一 个 图 形 
中 绘制 T 是 合理 的 。 

















如 图 3-1 所 示 ， 当 有 一 系列 的 时 期 价格 上 升 时 ，T 值 达到 了 最 大 。 吕 
然 ， 为 了 计算 在 时 间 i 时 指标 T 的 取 值 ， 需 要 有 未 来 10 天 的 价格 ， 因 此 这 
里 不 是 用 T 来 预测 未 来 价格 。 预 测 未 来 价格 不 是 指标 T 的 目的 ， 其 目的 











是 把 未 来 观测 到 的 价格 变化 概括 为 一 个 单一 的 值 。 


本 案例 的 方法 假设 在 时 刻 t 的 正确 交易 行为 是 和 我 们 对 未 来 k 天 价格 
的 变化 预期 相关 的 。 我 们 用 指标 T 来 描述 未 来 价格 的 变化 。 如 果 T 值 高 
于 一 个 给 定 的 界限 值 ， 那 么 正确 的 交易 信号 应 该 是 “ 买 入 ”; 如 果 T 值 低 
于 一 个 给 定 的 界限 值 ， 那 么 正确 的 交易 信号 将 是 “ 卖 出 *”。 在 其 他 情况 
下 ， 正 确 的 交易 方式 将 是 什么 也 不 做 〈 即 挂 有 )〉 。 总 之 ， 我 们 想 要 预测 
时 刻 t 的 正确 交易 信号 。 对 于 历史 价格 数据 ， 我 们 将 计算 每 天 的 T 值 ， 并 
用 给 定 的 界限 值 ， 用 上 面 给 出 的 方法 得 到 每 一 天 的 正确 信号。 











[1] 显然 我 们 不 希望 等 待 若干 年 才能 获得 该 边际 利润 。 
[2] 你 可 以 通过 输入 class (addT.ind) 来 确认 这 一 点 ， 或 者 输入 对 象 的 名 
称 来 查看 该 对 象 的 内 容 。 


3.3.2 ”预测 变量 是 什么 


我 们 已 经 确定 用 指标 (CT) 来 总 结 接 下 来 k 天 的 价格 时 间 序 列 行为 。 
数据 挖掘 的 目标 是 预测 这 种 行为 。 试 图 预测 未 来 金融 市 场 行为 背后 的 主 
要 假设 是 通过 观 穴 市 场 过 去 的 行为 可 以 对 未 来 做 出 预测 。 更 确切 地 说 ， 
我 们 假设 如 果 过 去 菏 些 行为 p 之 后 是 另 一 个 行为 f， 并 且 如 果 这 一 因 采 链 
经 第 及 生 ， 那 么 假设 这 一 现象 未 来 也 会 再 次 发 生 就 是 合理 的 。 所 以 如 果 
我 们 现在 观 罕 到 现象 p， 我 们 束 可 以 预测 下 面 将 观察 到 现象 ft。 我 们 用 指 
标 T 来 近似 表示 未 来 的 行为 “f) 。 我 们 下 面 将 给 出 如 何 描述 近期 的 价格 
模式 〈《 即 上 面 描述 的 现象 p) 。 这 里 不 是 使 用 一 个 单一 的 指标 来 描述 价 
格 的 近期 动态 ， 而 是 使 用 多 个 指标 来 描述 价格 时 间 序 列 的 不 同属 性 ， 气 
此 进行 预测 任务 。 





























我 们 可 以 使 用 的 描述 过 去 最 简单 的 信息 近 观 测 到 的 价格 。 
通俗 地 说 ， 这 也 是 多 个 标准 时 间 序 列 建 模 方法 所 应 用 的 方法 。 这 些 方法 
对 时 间 序 列 未 来 值 和 该 序列 过 去 gq 个 观测 值 窗口 之 间 的 关系 建 模 。 我 们 
除了 描述 当前 时 间 序 列 的 动态 特性 外 ， 还 会 考虑 最 近 一 个 窗口 时 期 的 价 
格 特征 。 











技术 指标 反映 价格 时 间 序 列 特 征 的 数值 汇总 。 尽 管 应 用 这 些 指标 作 
为 决定 交易 的 工具 仍然 具有 争议 性 ， 但 它们 仍然 可 以 提供 价格 时 间 序 列 











动态 特征 的 有 意义 的 汇总 。 有 大 量 的 技术 指标 ， 在 R 的 添加 包 TTR 中 可 
以 找到 这 些 指 标 (Ulricth，2009) 。 


这 些 技术 指标 通 第 用 来 获取 价格 序列 的 芭 些 特征 ， 例 如 价格 是 否 小 
动 太 大 、 是 舍 有 对 种 特定 趋势 等 。 在 本 案例 中 ， 我 们 不 会 花 大 量 时 间 来 
寻找 适合 我 们 预测 任务 的 技术 指标 。 而 且 ， 对 于 我 们 的 案例 ， 技 术 指 标 
的 选择 仍然 是 一 个 研 完 谍 题 。 这 通常 称 为 变量 选择 问题 ， 它 用 来 从 所 有 
己 知 的 输入 变量 中 找到 最 适合 建 模 的 那个 子 集 。 变 量 选 择 方法 通常 分 为 
PHAR: 1) 变量 过 滤器 ，2) 变量 封装 。 前 者 的 变量 选择 独立 于 变量 选择 
之 后 的 模型 构建 阶段 。 它 一 般 使 用 变量 的 条 些 统计 特性 (如 相关 来 选 
择 用 于 建 模 的 数据 集 。 变 量 封装 方法 在 变量 选择 过 程 中 要 包含 后 面 要 构 
建 的 模型 信息 。 它 是 一 个 循环 选择 过 程 ， 在 循环 选择 过 程 的 每 一 步 
一 组 候选 变量 用 于 特定 的 模型 并 记录 模型 的 相应 结果 。 基 于 选择 记录 的 
结果 ， 用 茶 些 搜寻 操作 确定 一 组 新 的 候选 输入 变量 子 集 ， 重 复 这 个 过 程 
直到 定义 最 终 变 量子 集 的 收敛 准则 满足 。 



































我 们 将 采用 简单 的 方法 来 选择 用 于 模型 的 变量 集合 。 这 里 通过 一 个 
具体 的 例子 来 演示 如 何 选择 变量 。 这 里 不 是 试图 找 出 适合 问题 的 最 佳 变 
量子 集 ， 这 将 需 更 多 的 时 间 和 计算 资源 。 首 先 我 们 给 出 一 组 初始 输入 变 

然后 用 一 个 方法 来 估计 这 些 变 量 的 重要 性 。 基 于 它们 的 重要 性 ， 选 


最 适合 问题 的 变量 。 
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由 于 买 入 / 卖 出 诀 策 是 在 每 天 交易 结束 后 ， 所 以 这 里 将 集中 于 收盘 








价 的 分 析 。 初 始 的 输入 变量 由 多 个 基于 收盘 价 的 过 去 收益 构成 。 可 以 用 
下 列 公式 来 计算 h 天 〈 算 术 ) 的 收益 器 ， 或 者 百分比 收益 





这 里 Ci 是 第 i 天 的 收盘 价 。 


在 候选 输入 变量 中 包含 了 h 从 1 一 10 的 10 个 百分比 收益 。 下 一 步 ， 从 
R 添 加 包 TITR 中 选择 有 代表 性 的 技术 指标 集合 ， 即 平均 真实 范围 
(Average True Range,ATR) ， 该 指标 是 衡量 价格 流动 的 指标 ;随机 动 


量 指数 (Stochastic Momentum Index,SMI) ， 该 指标 是 一 个 动量 指标 ; 





威 尔 斯 - 威 尔 德 (Welles Wilder) 定向 运动 指数 (ADX) ; Aroon 指 标 ， 

该 指标 找 出 开始 的 趋势 ;， 布 林带 (Bollinger Bands) 指标 ， 它 比较 一 段 
时 间 内 价格 的 波动 ， 蔡 金波 动 (Chaikin Volatility) 指标 ;收盘 价 位 置 

价值 (Close Location Value,CLV) ， 该 指标 把 收盘 价 和 其 交易 范围 相 联 
R: 阿 姆 氏 简易 波动 指标 (Ease of Movement Value,EMV) ; MACD 指 
bs; 资金 流向 指数 (Money Flow Index,MFI) ; 抛物 线 止 损 反 转 和 波动 
性 指标 。 以 上 指标 的 详细 信息 可 以 在 R 添 加 包 TTR 相 应 函数 的 帮助 页 面 
中 找到 。 这 些 指标 的 大 部 分 给 出 了 多 个 值 交 易 决策 。 如 前 所 述 ， 我 们 不 
打算 使 用 这 些 指标 交易 。 因 此 ， 我 们 对 这 些 TTR 函 数 的 输出 做 了 后 续 处 
理 以 获得 一 个 单一 值 。 以 下 函数 实现 了 这 个 过 程 : 


> myATR <- function(x) ATR(HLC(x))[, “atr"] 

> mySMI <- function(x) SMI(HLC(x))[, "SMI"] 

> myADX <- function(x) ADX(HLC(x))[, "ADX"] 

> myAroon <- function(x) aroon(x[, c("High", "Low")])$oscillator 
> myBB <- function(x) BBands(HLC(x)){[, "pctB"] 

> myChaikinVol <- function(x) Delt(chaikinVolatility(x[, c("High", 
+ "Low")])){[, 1] 

> myCLV <- function(x) EMA(CLV(HLC(x)))[, 1] 

> myEMV <- function(x) EMV(x[, c("High", "Low")], xf, "Volume"])[, 
+ 2] 

> myMACD <- function(x) MACD(C1(x))[, 2] 

> myMFI <- function(x) MFI(x[, c("High", "Low", "Close")], 

+ x[, "Volume"]) 

> mySAR <- function(x) SAR(x[, c("High", "Close")J)[, 1] 

> myVolat <- function(x) volatility(OHLC(x), calc = "garman")[, 

+ 1] 


上 面 描述 的 变量 给 出 了 预测 指标 T 的 未 来 取 值 的 初始 预测 变量 集 
合 。 下 面 应 用 变量 选择 方法 把 这 22 个 预测 变量 进行 精简 。2.7 节 应 用 了 
随机 森林 (Breiman, 2001) 方法 预测 海 蓉 的 频率 。 随 机 森林 也 可 以 用 
于 估计 预测 任务 中 变量 的 重要 性 。 不 严格 地 讲 ， 它 可 以 通过 计算 每 个 变 
量 被 移 除 后 随机 森林 误差 的 增加 来 估计 变量 的 重要 性 。 在 茶 种 意义 上 
这 种 方法 和 变量 封装 类 似 ， 它 在 选择 变量 过 程 中 需要 用 到 模型 的 信息 。 
然而 ， 这 里 不 是 通过 循环 过 程 来 选择 变量 的 ， 力 外 我 们 用 其 他 的 模型 来 
预测 T， 这 束 是 说 ， 这 个 变量 选择 过 程 没有 对 其 他 预测 模型 进行 优化 ， 
因此 它 更 像 是 变量 过 滤 。 














在 本 案例 中 ， 我 们 把 数据 集 分 成 2 个 独立 的 子 集 : 1) 一 个 数据 集 用 
于 构建 交易 系统 ，2) 另 一 个 用 于 测试 。 第 一 个 数据 集 由 S&P 500 指 数 
前 30 年 的 数据 构成 。 剩 下 的 数据 《大约 9 年 ) 用 于 最 终 交 易 系 统 的 测 





试 。 基 于 此 ， 为 了 避免 出 现 有 偏差 的 结果 ， 最 终 的 测试 数据 不 用 于 变量 
选择 过 程 。 


用 训练 集 数据 构建 随机 森林 模型 ， 代 码 如 下 : 


> data(GSPC) 
> library(randomForest) 
> data.model <- specifyModel(T.ind(GSPC) ~ Delt(C1(GSPC),k=1:10) + 
myATR(GSPC) + mySMI(GSPC) + myADX(GSPC) + myAroon(GSPC) + 
myBB(GSPC) + myChaikinVol(GSPC) + myCLV(GSPC) + 
CMO(C1(GSPC)) + EMA(De1t(C1(GSPC))) + myEMV(GSPC) + 
myVolat(GSPC) + myMACD(GSPC) + myMFI(GSPC) + RSI(C1(GSPC)) + 
mySAR(GSPC) + runMean(C1(GSPC)) + runSD(C1(GSPC))) 
set. seed (1234) 
rf <- buildModel(data.model,method='randomForest', 
training. per=c(start (GSPC) , index (GSPC["1999-12-31"])), 
ntree=50, importance=T) 


t++VVtE4 + + + 


上 面 的 代码 使 用 函数 specifyModel0 来 设 定 并 获取 建 模 数据 集 。 这 个 
函数 创建 一 个 quantmod 对 象 ， 它 包含 一 个 抽象 模型 〈 公 式 描 述 ) 的 描 
述 。 该 描述 中 所 设 定 的 数据 可 以 有 不 同类 型 的 来 源 ， 其 中 一 些 甚 至 目前 
还 不 在 计算 机 的 内 存 中 。 该 函数 将 调用 函数 getSymbols() 来 处 理 数据 
源 ， 并 获取 必要 的 数据 。 对 于 后 面 的 建 模 阶段 而 言 ， 这 种 指定 数据 和 获 
取 必 要 数据 的 方式 是 非常 方便 的 。 此 外 ， 对 于 来 源 为 网 络 的 数据 符号 ， 
可 以 在 后 面 把 这 里 得 到 的 对 象 〈 在 我 们 例子 中 为 data.model) 作为 函数 
getModelData() 的 参数 ， 用 该 函数 来 获取 包含 最 新 报价 数据 的 对 象 。 如 
果 要 使 交易 系统 适应 更 新 的 报价 信息 ， 这 种 方法 将 十 分 便利 。 














函数 buildModel() 使 用 得 到 的 模型 规范 ， 获 得 有 相应 数据 的 模型 。 


通过 参数 training.per， 可 以 指定 建立 模型 所 用 的 数据 (这 里 使 用 的 是 前 
30 年 的 数据 ) 。 目 前 该 函数 包含 了 多 个 内 置 的 模型 2 ， 其 中 有 随机 森 

林 。 如 果 需 要 使 用 函数 buildModel0 中 没有 包含 的 模型 ， 可 以 使 用 函数 

modelData0) 来 获取 数据 ， 然 后 使 用 你 喜爱 的 模型 来 建 模 。 下 例 给 出 演示 
代码 : 





> ex.model <- specifyModel(T.ind(IBM) ~ Delt(C1(IBM), k = 1:3)) 
> data <- modelData(ex.model, data.window = c("2009-01-01", 
+ "2009-08-10")) 
Mk data RE — PEM zoo A, EAI LRA HRA 
阵 或 数据 框 ， 然 后 作为 参数 供 任 何 建 模 函 数 使 用 ， 如 下 面 的 演示 例子 1 





> m <- myFavouriteModellingTool (ex.model@model .formula, 
+ as.data. frame (data) ) 


注意 ， 这 里 是 如 何 表示 模型 公式 的 。 建 模 中 的 “真实 ?公式 不 一 定 和 
函数 specifyModel0 参 数 中 提供 的 公式 完全 一 样 。 后 者 的 公式 用 来 获取 数 
据 ， 但 “真正 ”的 公式 中 可 应 用 函数 specifyModel0 得 到 的 任何 列 和 相应 的 
名 称 。 这 些 信息 包含 在 函数 specifyModel0 生 成 的 quantmod 对 象 的 
model.formula 属 性 中 。 


注意 ， 上 面 的 演示 代码 中 所 用 到 的 股票 CBM) ， 目 前 在 内 存 中 没 
有 该 股票 的 数据 。specifyModel0 函 数 将 应 用 函数 getSymbols0 透 明 地 从 


网 站 获取 该 股票 的 价格 数据 。 所 有 这 一 切 对 用 户 都 是 透明 的 ， 用 户 甚 至 
可 以 在 模型 规范 中 包含 来 源 不 同 的 数据 符号 《〈 例 如，3.2.3 节 中 应 用 函数 
setSymbolLookupO 的 例子 ) 。 


回 到 变量 选择 问题 ， 注 意 设置 参数 importance=TRUE， 这 样 随机 森 
林 将 估计 变量 的 重要 性 。 对 于 回归 问题 ，R 中 的 随机 森林 将 估计 两 个 可 
选 变量 的 重要 性 分 数 。 第 一 个 分 数 是 当 依次 删除 每 个 变量 时 ， 随 即 森 林 
错误 增加 的 百分比 。 在 每 个 变量 被 删除 时 ， 通 过 计算 树 在 样本 外 数据 上 
的 均 方 误差 的 增加 来 估计 该 指标 。 该 指标 是 对 森林 中 所 有 树 得 到 的 结 
进行 并 标准 化 得 到 的 。 第 二 个 得 分 是 与 变量 导致 的 结 点 杂质 减少 有 关 ， 
当然 它 也 是 对 所 有 树 的 平均 值 。 我 们 将 使 用 第 一 个 得 分 ， 因 为 它 是 在 随 
机 和 森林 (Breiman，2001) 的 原始 文献 中 提 到 的 方法 。 得 到 模型 后 ， 我 
们 可 以 检查 变量 的 重要 性 ， 方 法 如 下 : 














> varImpPlot (rf@fitted.model, type = 1) 


上 面 函数 调用 的 结果 在 图 3-2 中 给 出 。 函 数 varImpPlotO 的 参数 是 随 
机 森林 和 我 们 想 绘 制 的 得 分 〈 如 果 省 略 参 数 ， 将 绘制 两 者 ) 。 泛 型 函数 
buildModel0 返 回 作为 结果 产生 的 quantmod 对 象 插 模 〈fitted.model) 即 为 
所 获得 的 模型 。 泛 型 函数 buildModel0 返 回 的 模型 对 象 将 是 quantmod 对 
象 的 一 个 属性 。 


rf@fitted.model 


runMean.CLGSPC 

myATR.GSPC 

myMACD.GSPC 
Dett.Cl.GSPC.k.1.10.Delt.1 .arithmetic 
myVolat.GSPC 


Dett.Cl.GSPC.k.1.10,0ei.2.arithmetic 
.GSPC 
RSI-CLGSPC 
Dett.Cl.GSPC,k.1.10,Dett.3.arithmetic 
Dett.Cl.GSPC.k.1.10, Delt.4.arithmetic 
Delt.Cl.GSPC.k.1.10.Delt.7 arithmetic 
Dett.Cl.GSPC.k.1.10.Delt.5. arithmetic 
mySMI,GSPC 
myBB.GSPC 
Del_Cl.GSPC.k.1.10.Delt.8.arithmetic 
Delt.Cl.GSPC.k.1.10.Delt.6. arithmetic 
Delt.Cl.GSPC,k. 1.10, Delt, 10, arithmetic 
EMA.Delt.CLGSPC 
Delt.Cl.GSPC.k.1.10,0ett.9.arithmatic 
myAroon.GSPC 
myChaikinVol.GSPC 





图 3-2 根据 随机 森林 的 变量 重要 性 


现在 ， 我 们 需要 确定 一 个 界限 值 来 选择 重要 性 评分 高 的 变量 子 集 。 
纵 观 图 3-2 的 结果 ， 因 为 这 是 一 个 简单 的 用 随机 森林 来 选择 变量 的 例 
子 ， 所 以 我 们 将 使 用 界限 值 10: 


> imp <- importance(rf@fitted.model, type = 1) 
> rownames(imp)[which(imp > 10)] 


[1] "Delt.C1.GSPC.k.1.10.Delt.1.arithmetic" 
[2] "myATR.GSPC" 
[3] "myADX.GSPC" 
[4] "myEMV.GSPC" 


[5] "myVolat.GSPC" 
[6] "myMACD.GSPC" 
[7] "mySAR.GSPC" 

[8] “runMean.C1.GSPC" 


函数 importance0 将 得 到 每 个 变量 的 具体 重要 性 分 数 〈 这 有 是 第 一 个 得 
分 ) 。 然 后 ， 我 们 用 给 定 的 界限 值 来 第 选用 于 建 模 的 变量 子 集 ， 我 们 将 
在 我 们 的 模拟 尝试 中 使 用 这 些 变 量 。 利 用 变量 重要 性 的 信息 ， 我 们 可 以 
得 到 最 终 用 于 建立 模型 的 数据 集 : 





> data.model <- specifyModel(T.ind(GSPC) ~ Delt(C1(GSPC), k = 1) + 
+ myATR(GSPC) + myADX(GSPC) + myEMV(GSPC) + myVolat(GSPC) + 
+ myMACD(GSPC) + mySAR(GSPC) + runMean(C1(GSPC))) 


[1] 对 数 收 益 的 定义 为 log (CiVCih ) o 
[2] 可 以 查看 帮助 文档 了 解 有 哪些 模型 。 


[3] 不 要 运行 这 段 代码 ， 这 是 一 段 “ 伪 码 ”。 


3.3.3 ”预测 任务 


在 3.3.2 节 中 ， 我 们 已 经 获得 一 个 quantmod 对 象 (data.model) , 1% 
对 象 包 含 了 用 于 建立 预测 模型 的 数据 集 。 这 个 数据 集 的 指标 工作 为 预测 
指标 ， 一 系列 从 变量 选择 过 程 得 到 的 变量 将 作为 预测 变量 。 在 3.3.1 节 中 
已 经 看 到 ， 我 们 的 真正 目标 是 预测 在 任何 时 间 t 的 正确 交易 信号 。 给 定 
我 们 在 前 一 节 生 成 的 数据 ， 如 何 进行 这 种 预测 呢 ? 下 面 我 们 来 探索 获取 
这 种 正确 交易 信号 预测 值 的 两 种 途径 。 











第 一 种 预测 任务 是 应 用 T 值 作为 目标 变量 ， 然 后 尝试 获取 模型 ， 该 
模型 应 用 预测 变量 的 信息 预测 T 值 。 这 和 第 2 章 考 虑 的 多 元 线性 回归 任务 
相似 。 如 果 应 用 这 种 方法 ， 我 们 需要 把 模型 的 预测 值 转换 成 交易 信号 。 
这 意味 看 需要 给 出 界限 值 来 决定 预测 的 T 值 对 应 三 种 交易 信号 的 哪 一 
种 ， 转 换 公式 如 下 : 








这 里 选择 界限 值 0.1 和 -0.1 纯 粹 是 启发 式 的 ， 也 可 以 使 用 其 他 的 界限 
值 。 然 而 ， 这 两 个 界限 值 的 意义 是 ， 生 成 T 值 的 10 日 间 ， 至 少 有 四 天 的 
平均 日 价 高 于 目前 收盘 价 2.5% (4*0.025=0.1) 。 如 果 决 定 使 用 其 他 的 界 
限 值 ， 需 要 考虑 的 是 ， 太 大 的 界限 绝对 值 将 导致 更 少 的 信号 ， 而 太 小 的 
界限 值 可 能 会 导致 在 太 小 的 市 场 变化 时 进行 交易 ， 从 而 招致 更 大 的 风 
险 。 本 书 R 包 中 的 函数 trading.signals()， 可 以 进行 上 面 的 转换 ， 它 把 数值 











型 的 T 值 转变 为 三 个 可 能 的 值 :“s”、“h” 和 “b”， 分 别 代表 卖 出 、 持 有 和 
买 入 行动 。 


卖 出 Tegi 
signal = {44% -0.1<Ts<0.1 (3-6) 
买 入 T =O. 





第 二 个 可 供 选 择 的 预测 任务 是 直接 预测 交易 信号 ， 这 意味 着 把 第 d 
天 的 正确 信号 作为 目标 变量 。 怎 样 才能 获得 这 些 正 确信 号 呢 ? 这 里 仍然 
使 用 指标 T 和 式 (3-6) 。 对 于 可 用 的 历史 数据 ， 我 们 通过 接 下 的 10 天 来 
计算 指标 IT 的 值 ， 然 后 用 式 〈3-6) 中 的 界限 值 来 确定 信号 ， 从 而 得 到 每 
一 天 的 交易 信号 。 在 第 二 个 预测 任务 中 ， 目 标 变量 是 一 个 名 义 变量 。 目 
标 变量 为 名 义 变量 的 预测 问题 称 为 分 类 任务 中 。 分 类 任务 〈 问 题 )》 和 
回归 任务 的 主要 区 别 是 目标 变量 的 类 型 。 回 归 任 务 有 一 个 数值 型 目标 变 
量 《 例 如 ， 我 们 案例 中 的 T 指 标 ) ， 而 分 类 任务 的 目标 变量 是 取 值 为 有 
限 个 值 的 名 义 变量 。 不 同 的 方法 和 技巧 可 以 用 于 上 面 的 两 类 问题 。 




















R 的 xts 添 加 包 中 的 函数 基于 数值 型 数据 。xts 包 中 对 象 的 数据 属性 必 
须 是 问 量 或 者 矩阵 ， 即 它们 是 单一 模式 的 数据 。 所 以 它 不 允许 训练 集 数 
据 的 一 列 为 名 义 变量 RWAF) ， 而 其 他 列 为 数值 型 变量 。 为 了 克服 
xts 的 这 个 问题 ， 我 们 在 xts 外 进行 建 模 的 整个 过 程 。 下 面 你 会 看 到 ， 
样 比较 简单 且 没 有 任何 像 xts 那 样 的 限制 。 我 们 用 xts 提 供 的 功能 来 进行 
数据 子 集 的 选取 和 绘图 ， 建 模 阶 段 可 以 不 必 应 用 xts 的 功能 


下 面 的 代码 构造 本 节 下 面部 分 两 个 预测 任务 的 预测 模型 所 应 用 的 数 
据 结 构 。 


> Tdata.train <- as.data.frame(modelData(data.model, 


+ data.window=c('1970-01-02','1999-12-31'))) 
> Tdata.eval <- na.omit{as.data.frame (modelData(data.model, 
+ data.window=c('2000-01-01','2009-09-15')))) 


> Tform <- as.formula('T.ind.GSPC ~ .') 


上 面 代码 中 的 Tdata.train 和 Tdata.eval 是 两 个 数据 框 ， 它 们 的 数据 分 
别 用 于 模型 训练 阶段 和 模型 评价 阶段 。 我 们 使 用 数据 框 作为 基本 数据 结 
构 ， 它 允许 分 类 任务 所 要 求 的 混合 模式 数据 集 。 我 们 用 函数 
trading.signals() 产 生 数 值 型 目标 变量 的 相应 信号 ， 然 后 用 信号 来 蔡 代 原 
来 的 目标 变量 。 在 模型 选择 和 比较 过 程 中 没有 应 用 数据 框 Tdata.eval， 在 
评估 最 后 得 到 的 最 优 模 型 时 才 应 用 该 数据 框 。 调 用 函数 na.omit() 是 必要 
的 ， 它 可 以 避免 在 数据 框 结束 部 分 由 于 没有 未 来 数据 计算 T 值 所 导致 的 
NA 值 。 











[1 有 些 统计 机 构 称 该 方法 为 “判别 任务 ”。 


3.3.4 ”模型 评价 准则 





3.3.3 节 中 描述 的 预测 任务 获得 的 模型 可 以 给 出 未 来 市 场 方向 的 预测 
值 。 对 回归 任务 而 言 ， 这 个 预测 值 是 一 个 数值 〈 即 T 值 的 预测 值 》; 对 
分 类 任务 而 言 ， 这 个 预测 值 是 一 个 信号 。 上 面 已 经 看 到 ， 即 使 在 回归 任 
务 的 情况 下 ， 我 们 用 一 个 界限 值 将 回归 模型 的 预测 值 转换 为 信号 。 在 
3.5 节 中 ， 我 们 将 描述 几 个 根据 这 些 预 测 信号 进行 市 场 行为 的 交易 策 
略 。 本 节 不 讨论 如 何 评价 模型 信号 预测 问题 。 我 们 不 考虑 T 指 标的 数值 
预测 评价 。 由 于 我 们 不 直接 使 用 预测 的 数值 指标 T， 因 此 评价 数值 型 预 
测 值 与 我 们 的 目标 不 相干 。 由 于 我 们 只 对 交易 信号 感 兴趣 ， 所 以 甚至 有 
人 可 能 质疑 这 些 回归 任务 是 否 有 意义 。 这 里 我 们 仍然 保持 这 些 数 值 型 的 
预测 任务 ， 因 为 不 同 的 交易 策略 可 能 会 利用 数值 型 预测 值 的 优势 ， 比 
如 ， 当 开盘 时 ， 可 以 根据 数值 型 预测 值 的 大 小 来 决定 投资 金额 。 决 定 开 
盘 时 的 T 值 ， 如 果 远 远大 于 界限 值 (T>0.1 决 定 买 入 和 T<<-0.1 决 定 卖 
tH) ， 可 以 导致 更 大 的 投资 。 











可 以 通过 测量 错误 率 来 衡量 信号 预测 ， 错 误 率 的 定义 为 : 


l ; 
error. rate = p> Ea te Pe (3-7) 


y 


这 ” 是 第 i 企 测试 数据 的 模型 预测 值 ， 而 真实 的 类 标签 为 » L 0/1 
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有 时 候 经 常 采 用 上 面 损失 函数 的 对 立 测度 ， 即 精确 度 ， 定 义 为 1- 


error.rate。 


式 〈3-7) FII (3-8) 中 定义 的 统计 量 部 是 用 来 把 模型 的 预测 值 和 
未 来 k 天 市 场 上 真实 发 生 的 结果 进行 比较 。 


精确 度 〈 或 者 错误 率 ) 被 证 明 不 是 衡量 分 类 问题 好 坏 的 最 佳 指 标 。 
事实 上 ， 在 三 个 可 能 的 结果 中 ， 它 们 极 不 平衡 。 在 金融 市 场 中 ， 大 的 价 
格 波动 比较 少 ， 所 以 “ 持 有 ”这 一 结果 出 现 的 次 数 大 大 超过 为 外 两 个 结果 
出 现 的 次 数 趾 。 这 就 意味 着 精确 度 值 将 主要 由 模型 在 出 现 最 多 的 结果 
CREA) 上 的 性 能 来 决定 。 然 而 ,，“ 持 有 ” 却 不 是 我 们 交易 所 关心 的 结 
果 。 我 们 需要 在 “罕见 ”事件 ( 买 入 或 者 卖 出 ) 上 预测 准确 的 模型 。 买 入 
或 者 卖 出 事件 才 是 导致 市 场 行为 并 有 潜在 利润 的 事件 ， 也 是 我 们 应 用 的 


最 终 目标 。 














金融 市 场 预 测 是 罕见 事件 驱动 应 用 的 一 个 例子 。 基 于 事件 的 预测 任 
务 通 第 由 决 全 精确 度 指 标 和 回溯 精确 肛 指 标 来 衡量 ， 这 两 个 指标 可 以 集 
中 于 所 关注 事件 的 评估 而 不 是 常见 事件 的 评估 《我 们 案例 中 的 “ 持 有 ” 信 
号 即 为 常见 事件 ) 。 决 策 精 确 度 衡 量 模型 给 出 的 事件 信号 的 正确 百 分 

















比 ; 而 回溯 精确 度 则 是 指 模型 给 出 的 事件 信号 占 事实 存在 的 百分比 。 通 
WAM COOP AGIA FEBS) 可 以 方便 地 计算 这 两 个 指标 。 分 类 和 矩阵 
通过 比较 模型 的 预测 值 和 真实 值 ， 然 后 汇总 得 到 的 。 表 3-1 给 出 了 本 


HE 
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通过 表 3-1， 本 案例 的 决策 精确 度 和 回调 精确 度 指 标 正 式 定 义 如 


is 
n,, t+n,, 
Prec = ow. N (3-9) 
n,, ENR, 
Rec = (3-10) 
N F 十 N, 
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真实 结果 















也 可 以 单独 对 茶 个 特定 的 信号 (例如 买 信号 或 者 卖 信 号 ) 计算 其 独 
立 的 决策 精确 度 和 回 济 精 确 度 ， 例 如 : 


Prec, = iat (3-11) 


Rec, = :一 一 (3-12) 


经 常 把 决策 精确 度 和 回溯 精确 度 合并 为 一 个 统计 量 ， 称 为 FE 度量 
(Rijsbergen, 1979) ， 合 并 后 的 统计 量 为 : 


m (B + 1) » Pree «+ Rec 


F 7 
B » Prec + Rec 


(3-13) 


这 里 0<B<1， 它 控制 回溯 精确 度 相 对 决 朱 精确 度 的 相对 重要 性 。 


[1] ”很 明显 这 取决 于 你 所 建立 的 目标 边际 利润 。 但是， 为 了 能 窗 盖 交易 
成 本 ， 应 该 设 定 该 边际 利润 足够 大 ， 所 以 ， 这 里 的 “ 军 见 ”的 确 是 事实 


情况 。 


3.4 ”预测 模型 


在 本 节 中 ， 我 们 将 探讨 一 些 模 型 ， 通 过 运用 这 些 模型 来 完成 3.3 市 
所 确定 的 预测 任务 。 我 们 主要 通过 研究 模型 处 理 非 线 性 回归 问题 的 优 务 
来 选择 最 佳 模 型 ， 这 就 是 我 们 案例 中 所 要 研究 的 问题 。 当 然 ， 许 多 其 他 
的 方法 也 可 以 用 来 解决 这 个 问题 ， 在 研究 股票 收益 率 这 样 一 个 领域 中 ， 
任何 一 个 更 好 的 研究 方法 都 必然 需要 经 历 更 多 的 比较 和 更 多 的 选择 。 在 
本 书 上 下 文 的 背景 下 ， 这 样 的 探索 将 由 于 其 需要 计算 空间 和 计算 能 力 方 
面 的 费用 而 显得 没有 意义 。 


3.4.1 如 何 应 用 训练 集 数 据 来 建 模 


复杂 的 时 间 序 列 问 题 通常 有 着 不 同 的 表现 形式 ， 比 如 序列 由 波动 大 
的 阶段 到 相对 较 平 稳 的 阶段 ， 或 者 是 有 茶 种 趋势 倾 问 的 序列 。 这 些 关 型 
的 序列 通常 称 为 是 非 平 稳 时 间 序 列 ， 在 茶 些 模型 的 基本 假设 条 件 下 ， 非 
平稳 序列 将 会 带 来 严重 的 问题 。 这 是 显而易见 的 ， 比 如 运用 我 们 案例 中 
的 数据 ， 夯 出 价格 的 时 间 序 列 图 。 为 了 克服 由 非 平 稳 序 列 带 来 的 消极 影 
啊 ， 我 们 可 以 使 用 一 些 方法 来 答 试 着 消除 这 些 影 响 ， 比 如 使 用 适用 于 原 
始 时 间 序 列 的 一 些 转换 方法 ， 用 收益 百分比 的 变化 来 玲 换 原来 的 绝对 价 
格 就 是 一 种 转换 方法 ， 也 可 以 对 已 经 获得 的 数据 有 选择 地 使 用 。 假 设 需 
要 用 给 定期 间 的 训练 集 数 据 来 建立 一 个 预测 模型 ， 并 使 用 该 模型 获得 其 








测试 时 间 段 的 预测 值 。 标 准 的 做 法 是 用 训练 集 建 立 模型 ， 然 后 将 模型 应 
用 到 测试 集 获取 预测 值 。 如 果 我 们 有 理由 相信 序列 在 菏 个 时 间 扣 及 生 了 
变化 ， 那 么 用 同一 个 模型 来 预测 测试 时 间 段 的 数据 将 不 是 最 好 方法 ， 尤 
其 是 当 测 试 时间 段 存在 一 个 改变 点 时 ， 它 将 会 严重 破坏 原 有 模型 的 性 

能 。 在 这 种 情况 下 ， 我 们 需要 改变 或 者 调整 模型 ， 使 模型 适应 最 近 的 数 
据 ， 这 样 模型 就 能 获取 当前 数据 的 变化 。 











在 时 间 序 列 问 题 中 ， 测 试 案 例 中 有 一 种 隐 含 的 时 间 顺 序 。 在 上 下 文 
中 ， 假 设 当 我 们 获得 一 个 时 间 序 列 在 i 时 的 预测 时 ， 所 有 时 间 标 记 小 于 i 
的 时 期 K〈k<i) 的 数据 就 已 经 属于 过 去 。 这 就 意味 着 ,假设 我 们 已 经 
知道 这 些 过 去 时 期 的 目标 变量 的 真实 值 ， 那 么 我 们 就 可 以 放心 地 使 用 这 
些 信息 。 因 此 ， 如 果 在 测试 集 时 间 序 列 的 茶 个 时 间 点 m， 我 们 有 信心 相 
信和 时 间 序 列 发 生 了 变化 ， 那 么 应 该 把 测试 集 时 间 序 列 时 间 点 mm 之 前 的 所 
有 观测 值 包含 到 初始 训练 集 数 据 中 ， 然 后 用 这 个 包含 新 的 变化 信息 的 训 
练 集 数据 来 更 新 预测 模型 ， 这 样 就 可 以 所 高 预测 模型 对 未 来 情况 的 预测 
性 能 。 更 新 异型 的 一 种 方式 就 是 使 用 新 的 训练 案例 数据 来 改变 原来 的 模 
型 。 这 些 方法 通常 称 为 增 量 学 习 ， 因 为 它 更 新 模型 以 适应 最 新 的 信息 而 
无 须 从 头 开 始 。 目 前 还 没有 太 多 的 建 模 技巧 应 用 这 种 更 新 模型 的 方式 ， 
尤其 是 在 R 中 ， 没 有 很 多 的 模型 可 以 采用 这 种 方式 。 在 本 书 中 ， 我 们 将 
按照 其 他 的 方法 来 更 新 模型 ， 使 用 新 的 训练 数据 集 来 重新 建立 新 的 模 
型 。 这 显然 在 计算 方面 更 有 难度 ， 尤 其 是 数据 到 达 速 度 很 快 ， 并 且 要 求 
几乎 实时 地 给 出 模型 和 决策 时 ， 这 种 方法 就 不 适用 了 。 这 个 问题 在 应 用 
































研究 中 很 第 见 ， 即 数据 流 问 题 。 在 我 们 的 应 用 程序 中 ， 我 们 在 每 天 收市 
后 做 出 决策 ， 因 此 速度 不 是 一 个 关键 问题 中。 假设 我 们 使 用 一 种 重新 
学 习 的 方法 ， 我 们 有 两 种 基本 的 形式 将 新 的 案例 纳入 训练 集中 。 不 断 增 
加 窗口 的 方法 只 是 简单 地 将 它们 添加 到 当前 的 训练 集 ， 从 而 不 断 地 扩大 
样本 集 。 这 种 方法 的 最 终 问题 在 于 ， 由 于 我 们 假设 最 近 的 数据 是 有 助 于 
建立 更 好 的 模型 ， 所 以 我 们 也 会 考虑 我 们 最 早 的 那 部 分 训练 数据 是 不 是 
DARIN 了， 是 不 是 可 能 会 降低 模型 的 精确 性 呢 ? 基 于 这 些 考虑 ， 在 滑 
动 窗口 方式 下 ， 在 删除 训练 集中 最 原始 数据 的 同时 ， 加 入 最 新 的 观察 数 
据 ， 从 而 保持 训练 集 的 大 小 不 变 。 








扩大 和 滑动 镁 口 的 方法 都 涉及 一 个 关键 的 决定 : 什么 时 候 应 该 通过 
纳入 更 新 的 数据 来 改善 或 者 调整 模型 ? 解决 这 个 问题 主要 有 两 种 方法 。 
第 一 种 方法 需要 通过 检查 来 估计 模型 的 预测 能 力 从 什么 时 候 开 始 降低 。 
如 果 我 们 观 穴 到 在 茶 个 时 候 ， 模 型 的 预测 性 能 突然 降低 ， 我 们 就 可 以 认 
为 在 这 时 模型 发 生 了 改变 。 这 种 方法 最 主要 的 挑战 就 在 于 给 出 模型 性 能 
变化 的 合理 估计 。 我 们 需要 尽快 地 检测 到 模型 性 能 的 变化 ， 但 又 不 能 对 
模型 没有 捕获 的 一 些 噪声 案例 过 度 反 应 。 第 二 种 更 简单 的 方法 是 在 币 规 
时 间 的 基础 上 更 新 模型 ， 也 就 是 说 ， 每 隔 w 个 汕 试用 例 ， 用 更 新 的 数据 
来 建立 新 的 模型 。 在 本 案例 中 ， 我 们 就 采用 这 种 方法 。 

















忌 之， 我 们 考虑 每 一 个 模型 应 用 会 用 到 以 下 三 种 不 同 的 方法 : 1) 
所 有 的 测试 时 段 都 使 用 一 个 模型 ，2) 每 隔 w 天 更 新 数据 增长 窗口 ，3) 


用 每 阳 w 天 的 数据 涓 动 窗 口 。 图 3-3 说 明了 这 三 种 方法 。 
趋势 变化 的 参考 文献 


时 间 序 列 数据 的 趋势 变化 问题 是 统计 过 程控 制 (lde, Oakland, 
2007) 领域 长 时 间 研 究 的 课题 ， 它 使 用 控制 图 检测 数据 的 突变 点 。 这 一 
课题 受到 数据 流 的 影响 (例如 ，Gama and Gaber, 2007) ， 人 们 在 数据 
挖 握 领域 的 兴趣 不 断 增 加 。 多 部 作品 (Gama etal., 2004; Kifer etal., 
2004; Klinkenberg, 2004) 已 经 解决 了 问题 : 如 何 检测 制度 的 变化 ， 以 
及 如 何 学 习 和 运用 在 这 些 变化 方面 的 模型 。 


The Problem test data 
One shot testing l single model applied over all test period en hk 
TAN S 
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图 3-3 三 种 形式 获得 测试 时 段 数据 的 预测 
[1] ”如 果 是 实时 交易 ， 即 在 交易 日 中 间 交 易 ， 则 速度 就 是 需要 关心 的 一 


个 问题 。 


3.4.2” 建 模 工 具 





在 本 市 中 ， 我 们 简要 介绍 建 模 的 方法 ， 将 使 用 这 些 方 法 来 完成 我 们 
的 预测 任务 ， 并 说 明 在 R 中 如 何 使 用 这 些 方 法 。 


3.4.2.1 ”人工 神经 网 络 


人 工 神经 网 络 (Artificial Neural Network,ANN) 经 常 在 金融 预测 中 
使 用 〈 例 如 ，Deboeck，1994) ， 因 为 运用 人 工 神经 网 络 可 以 处 理 高 度 
非 线 性 问题 。R 的 添加 包 nnet 可 以 实现 前 馈 神 经 网 络 。 这 种 类 型 的 神经 
网 络 是 最 常用 的 ， 也 是 我 们 将 要 使 用 的 神经 网 络 。 


人 工 神 经 网 络 中 由 相互 联系 的 计算 单元 〈 即 神经 元 ) 构成 。 每 个 神 
经 元 执行 两 次 连续 的 计算 : 输入 的 线性 组 合 ， 之 后 对 前 面 结 末 的 非 线性 
计算 得 到 的 输出 值 作为 神经 网 络 的 下 一 个 神经 元 的 输入 。 每 个 神经 元 连 
接 都 有 一 个 相关 联 的 权重 。 要 构建 人 工 神经 网 络 ， 先 要 建立 网 络 体系 结 
构 ， 然 后 使 用 一 种 算法 来 计算 出 神经 元 之 间 的 连接 权重 。 





前 馈 人 工 神经 网 络 按 层 来 组 织 神经 元 。 第 一 层 包 含 网 络 输入 神经 
元 ， 训 练 集 的 观测 值 通过 这 些 输入 神经 元 传递 给 网 络 。 最 后 一 层 包 含 了 
任何 情况 下 传递 给 神经 网 络 输入 神经 元 的 神经 网 络 预 测 值 。 在 这 两 层 之 
间 ， 通 常 有 一 个 或 多 个 “隐藏 " 层 神经 元 。 权 重 更 新 算法 ， 比 如 反 向 传播 














法 ， 试 图 获得 能 够 优化 茶 个 误差 标准 的 连接 权重 ， 也 就 是 试图 确保 网 络 
和 输出 与 提交 给 神经 网 络 模型 的 训练 集 个 案 一 致 。 这 和 古 通 过 在 网 络 输入 结 
扩 多 次 传 入 训练 个 案 来 进行 迭代 的 一 个 过 程 ， 在 网 络 输出 结 点 获得 预测 
值 并 计算 出 各 目的 预测 误 莽 后 ， 通 过 更 新 网 络 中 的 权重 来 减 小 模型 的 预 
汕 误 兰 。 这 种 迭代 过 程 反复 进 行 ， 直 到 满足 一 定 的 收敛 准则 。 








使 用 R 中 的 添加 包 nnet (Venables and Ripley, 2002) 中 的 一 个 函数 

实现 了 市 有 隐藏 层 的 前 馈 神 经 网 络 。 通 过 该 函数 获得 的 网 络 ， 既 可 以 用 
于 分 类 问题 ， 也 可 以 用 于 回归 问题 ， 因 此 它 适 用 于 我 们 的 预测 任务 《〈 见 
Tt) 


UJ 


.3.3 








人 工 神 经 网 络 对 预测 问题 中 变量 的 尺度 敏感 。 这 种 情况 下 ， 在 将 数 
据 应 用 到 神经 网 络 前 ， 先 进行 数据 转换 是 很 有 意义 的 。 这 样 束 可 以 避免 
神经 网 络 模型 的 性 能 受到 变量 太 度 的 影响 。 在 我 们 的 案例 中 ， 先 进行 数 
气 的 标准 化 处 理 ， 使 所 有 变量 均 共 有 零 均 值 和 标准 兰 为 1。 通 过 下 面 的 
公式 ， 可 以 很 容易 地 对 数据 集 的 每 一 列 应 用 下 列 公式 进行 转换 : 

















y, = -一 一 (3-14) 


其 中 * 是 原始 变量 X 的 均值 ，o, 是 变量 X 的 标准 偏差 


Bt a a A a 
还 可 以 找到 函数 unscale0)， 这 个 函数 可 以 进行 标准 化 过 程 的 逆 运 算 ， 将 


转换 后 的 数据 转变 为 原来 尺度 的 数据 。 下 面 是 一 个 非常 简单 的 例子 ， 用 
来 说 明 在 R 中 如 何 获 取 和 使 用 这 种 类 型 的 神经 网 络 : 

> set.seed(1234) 

> 1library (nnet) 

> norm.data <- scale(Tdata.train) 

> nn <- nnet(Tform, norm.data[1:1000, J], size = 10, decay = 0.01, 

+ maxit = 1000, linout = T, trace = F) 

> norm.preds <- predict(nn, norm.data[1001:2000, ]) 

> preds <- unscale(norm.preds, norm.data) 

在 默认 情况 下 ， 函 数 nnet() 以 在 区 则 [-0.5，0.5] 的 随机 值 来 设置 结 点 

之 则 链接 的 初始 权重 ， 这 意味 着 连续 运行 两 次 有 完全 相同 参数 的 同一 也 
数 ， 得 到 的 实际 结果 可 能 不 同 。 为 了 确保 可 以 得 到 相同 的 结果 ， 我 们 增 
加 了 调用 函数 set.seed()， 这 个 函数 可 以 初始 化 随机 数 发 生 器 中 的 种 子 
值 ， 这 样 就 确保 了 可 以 得 到 与 本 书 中 一 样 的 结果 。 在 这 个 示例 中 ， 我 们 
用 开始 的 1000 个 训练 集 观 测 值 来 创建 神经 网 络 ， 并 用 接 下 来 的 1000 观 测 
值 来 测试 这 个 预测 模型 。 将 训练 数据 标准 化 后 ， 我 们 调用 函数 nnet() 来 
建立 模型 。 前 两 个 参数 是 R 中 任何 模型 的 函数 中 都 有 的 参数 。 模 型 的 函 
数 形式 通过 一 个 公式 来 具体 化 ， 训 练 集 数据 用 于 建立 模型 。 我 们 也 使 用 
nnet() 冰 数 中 的 一 些 参数 。 也 就 是 说 ， 参 数 size 用 来 指定 隐 藏 层 中 的 结 点 
个 数 。 这 里 使 用 的 参数 size 的 值 没 有 什么 神奇 配方 ， 人 们 通常 会 尝试 几 
个 值 来 观察 神经 网 络 的 行为 。 尺 管 如 此 ， 可 以 合理 地 假设 该 参数 的 值 小 
于 问题 中 预测 变量 的 个 数 。 参 数 decay 控 制 反 向 传播 算法 权重 的 更 新 
率 。 而 且 ， 实 验 和 得 错 是 最 重要 的 方法 。 最 后 ， 参 数 maxit 控 制 权 重 收 























伍 过 程 所 允许 使 用 的 最 大 达 代 次 数 ， 而 参数 linout=T 告 诉 该 函数 是 处 理 
回归 问题 ， 参 数 trace=F 是 用 来 避免 一 些 和 优化 过 程 有 关 的 结果 被 输出 。 





函数 predict0) 可 以 用 来 获得 测试 数据 集 的 神经 网 络 预 测 值 。 取 得 这 
些 预 测 值 后 ， 我 们 使 用 本 书 R 添 加 包 中 提供 的 函数 unsacale() 转 换 为 原来 
尺度 的 数据 。 这 个 函数 的 第 一 个 参数 是 预测 值 ， 第 二 个 参数 是 含有 标准 
化 数据 的 对 象 。 后 一 个 参数 中 的 对 象 是 必要 的 ， 因 为 该 对 象 中 存储 了 用 
于 标准 化 数据 的 均值 和 标准 差 中 ， 这 两 者 是 逆转 标准 化 过 程 所 必需 
的 。 





让 我 们 来 评估 人 工 神 经 网 络 模型 预测 测试 集 信 号 的 准确 性 。 我 们 可 
以 将 数值 型 预测 值 转换 成 信号 ， 然 后 使 用 3.3.4 节 中 的 统计 方法 。 
> sigs.nn <- trading.signals(preds, 0.1, -0.1) 
> true.sigs <- trading.signals(Tdata.train[1001:2000, "T.ind.GSPC"], 
+ 0.1, -0.1) 
> sigs.PR(sigs.nn, true.sigs) 
precision recall 
s 0.2101911 0.1885714 
b 0.2919255 0.5911950 
s+b 0.2651357 0.3802395 
ay AZ RE SKA ASE HRA FER AL, Pk) Betrading.signals() FY LAK Fil 
测 数 值 转换 成 信号 。 函 数 sigs.PRO 可 以 获得 我 们 关心 的 两 类 事件 以 及 决 
泉 精 确 度 和 回潮 精 确 度 和 矩阵。 这 些 值 表明 人 人 工 神 经 网 络 的 预测 性 能 并 不 
是 很 好 。 实 际 上 ， 会 得 到 相当 低 的 预测 精确 度 ， 回 调 精 确 度 值 也 不 是 很 





好 。 但 是 ， 后 者 比较 差 所 导致 的 问题 不 是 太 严 重 ， 因 为 它 基本 上 意味 着 
失去 机 会 而 不 意味 着 有 成 本 损失 。 男 一 方面 ， 预 测 精确 度 的 较 小 值 意 味 
着 该 模型 频繁 给 出 错误 信号 。 如 果 这 些 信 号 被 用 来 交易 ， 就 可 能 导致 严 
重 的 损失 。 





人 工 神经 网 络 也 可 以 用 于 分 类 问题 。 对 于 这 类 问题 ， 在 网 络 拓扑 方 
面 最 主要 的 区 别 在 于 不 是 一 个 单一 的 输出 单位 ， 我 们 将 有 和 目标 变量 值 
(有 时 称 为 类 变量 ) 一 样 多 的 输出 单位 ， 这 些 输出 单位 的 每 一 个 都 将 产 
生 各 上 自 类 值 的 概率 估计 。 这 意味 着 ， 对 于 每 一 个 测试 个 案 ， 人 工 神经 网 
络 可 以 产生 一 组 概率 值 ， 每 一 个 概率 值 相应 于 一 个 可 能 的 类 值 。 











使 用 nnet0) 函 数 来 完成 这 个 任务 与 使 用 该 函数 解决 回归 问题 很 相 
似 。 使 用 训练 数据 并 应 用 下 面 的 代码 进行 演示 : 
> set.seed(1234) 


> library(nnet) 
> signals <- trading.signals(Tdata.train[, "T.ind.GSPC"], 0.1, 


+ -0.1) 

> norm.data <- data.frame(signals = signals, scale(Tdata.train[, 

+ -1])) 

> nn <- nnet(signals ~ ., norm.data[1:1000, ], size = 10, decay = 0.01, 
+ maxit = 1000, trace = F) 


> preds <- predict(nn, norm.data[1001:2000, ], type = “class") 





这 里 的 参数 type="class" 是 用 于 获得 测试 集 个 案 的 类 标签 ， 而 不 是 概 
率 的 估计 值 。 在 神经 网 络 预 测 中 ， 可 以 计算 出 模型 的 预测 精确 度 和 回 济 
精确 度 ， 代 码 如 下 : 





> sigs.PR(preds, norm.data[1001:2000, 1]) 


precision recall 

s 0.2838710 0.2514286 

b = 0.3333333 0.2264151 

s+b 0.2775665 0.2185629 
上 面 结 末 中 ， 预 测 精确 度 和 回溯 精确 度 的 值 还 较 低 ， 但 是 都 蜗 于 回 


归 任 务 中 相应 的 值 。 
基于 神经 网 络 的 参考 文献 


Rojas (1996) 的 书 是 基于 神经 网 络 的 一 本 不 错 的 参考 书 。 对 于 更 多 
金融 方面 的 读物 ，Zirilli (1997) 的 书 是 一 本 很 好 的 和 容易 阅读 的 书 。 题 
A “Artificial Neural Networks Forecasting Times Series” (Rogers and 
Vemuri, 1994) 的 论文 集 是 另外 一 个 好 的 引用 源 和 参考 文献 。 

Deboeck (1994) 书 的 第 一 部 分 专门 提供 了 神经 网 络 应 用 程序 交易 的 几 
个 章节 。McCulloch 和 Pitts (1943) 提出 了 第 一 个 人 工 神 经 元 模型 ， 这 项 
工作 是 由 Ronsenblatt (1958) 、Minsky 和 Papert (1969) 推广 的 。 反 向 传 
播 法 ， 最 常用 的 权重 更 新 方法 ， 虽 然 经 常 归功 于 Rumelhatt 等 (1986) , 
但 根据 Rojas (1996) 的 书 ， 这 个 方法 是 由 Werbos (1974, 1996) AW 


的 。 
3.4.2.2 ”支持 向 量 机 


支持 向 量 机 (Support Vector Machine,SVM) |?! 和 人 工 神 经 网 络 一 


样 ， 也 是 一 种 建 模 工具 ， 可 以 用 于 回归 和 分 类 问题 。 基 于 其 成 功 应 用 到 
多 个 领域 和 其 强大 的 理论 背景 ， 文 持 问 量 机 已 经 受到 越 来 越 多 不 同 研究 
领域 的 关注 。Vapnik (1995, 1998) 、Shawe-Taylor 和 和 

Cristianini (2000) 是 文 持 向 量 机 的 两 个 重要 参考 文献 。Smola 和 
Scholkopf (2004, 1998) 出 版 了 一 本 极 好 的 文 持 向 量 机 指南 ， 概 述 了 文 
持 向 量 机 用 于 回归 的 基本 思想 。R 中 有 多 个 添加 包 实 现 了 支持 向 量 机 ， 
在 这 些 添加 包 中 ， 我 们 可 以 参考 由 Karatzoglou 等 (2004) 提供 的 带 有 多 
种 功能 的 添加 包 kernlab， 我 们 也 可 以 使 用 由 Dimitriadou 等 〈2009) 提供 
的 带 有 svm() 函 数 的 添加 包 e1071。 








支持 向 量 机 的 基本 思想 是 ， 将 原始 数据 映 财 到 一 个 新 的 蜗 维 空间 
中 ， 在 这 个 新 的 高 维 空间 中 ， 有 可 能 应 用 线性 模型 来 获得 一 个 超 乎 面 来 
进行 分 离 ， 例 如 在 分 类 任务 中 ， 分 离 问题 中 的 不 同类 别 。 将 原始 数据 映 
射 到 这 一 新 的 空间 是 在 所 谓 的 核 函 数 的 帮助 下 进行 的 。 文 持 同 量 机 是 作 
用 在 由 核 函数 所 引入 的 对 称 表示 的 线性 机 。 




















在 新 的 对 称 表 示 下 进行 超 平 而 分割， 这 是 通过 最 大 化 不 同类 别 之 间 
个 案 的 分 割 边 际 来 进行 的 。 参 见 图 3-4。 这 是 一 个 优化 问题 ， 经 常用 二 
次 规划 来 解决 。 软 边界 方式 允许 将 比例 很 小 的 个 案 划 分 到 “错误 ”的 类 
别 ， 这 些 方式 导致 一 定 的 “损失 ”。 











在 文 持 疝 量 回 归 中 ， 这 个 过 程 很 相似 ， 主 要 区 别 在 于 误差 和 相关 损 
失 的 计算 。 这 通常 借助 于 所 谓 的 e 不 敏感 损失 函数 | 下 ， 该 函数 形式 如 


(3-15) 





图 34 支持 向 量 机 边际 最 大 化 


下 和 面 ， 我 们 将 提供 使 用 R 中 这 类 模型 的 简单 例子 。 我 们 从 使 用 添加 
包 e1071 中 的 函数 进行 回归 任务 开始 ， 代 码 如 下 : 


> library(e1071) 

> sv <- svm(Tform, Tdata.train[1:1000, J], gamma = 0.001, cost = 100) 
> s.preds <- predict(sv, Tdata.train[1001:2000, ]) 

> sigs.svm <- trading.signals(s.preds, 0.1, -0.1) 

> true.sigs <- trading.signals(Tdata.train[1001:2000, "T.ind.GSPC"], 
+ 0.1, -0.1) 
> sigs.PR(sigs.svm, true.sigs) 


precision recall 
s 0.4285714 0.03428571 


b 0.3333333 0.01257862 
s+b 0.4000000 0.02395210 


在 这 个 例子 中 ， 我 们 使 用 了 函数 svm()， 除 参数 gamma 和 cost 外 ， 大 
部 分 的 参数 我 们 都 采用 默认 值 。 在 本 节 中 ， 该 函数 使 用 了 一 个 径 癌 基 核 


区 
2 


K(x,y) = exp(-yx |x -y |°) (3-16) 
其 中 Y 是 一 个 用 户 参数 ， 在 上 面 的 函数 调用 中 ， 它 的 值 设 置 为 
0.001。【〔 在 函数 svm() 中 ， 该 参数 的 默认 值 为 /ncol (data) ) 。 


参数 cost 给 出 违反 边际 所 引入 的 损失 。 你 可 以 参考 函数 svm 的 帮助 
页 面 以 获取 该 参数 和 其 他 参数 的 细节 。 





我 们 可 以 观察 到 ， 文 持 同 量 机 模型 的 决策 精确 度 值 比 人 工 神经 网 络 
好 许多 ， 尽 管 回 调 精 确 度 的 值 很 低 。 


下 一 步 ， 我 们 考虑 分 类 任务 ， 这 次 使 用 R 的 kernlab 添 加 包 ， 人 代码 如 


> library (kernlab) 
> data <- cbind(signals = signals, Tdata.train[, -1]) 
> ksv <- ksvm(signals ~ ., data[1:1000, ], C = 10) 


Using automatic sigma estimation (sigest) for RBF or laplace kernel 


> ks.preds <- predict(ksv, data[1001:2000, ]) 
> sigs.PR(ks.preds, data[1001:2000, 1]) 


precision recall 
s 0.1935484 0.2742857 
b 0.2688172 0.1572327 
stb 0.2140762 0.2185629 


我 们 使 用 kernlab 添 加 包 中 的 函数 ksvm()， 其 中 的 参数 C 用 来 指定 违 
反 约 束 的 不 同 损 失 ， 该 参数 的 默认 值 为 1。 除 此 之 外 ， 其 他 参数 使 用 默 
认 值 ， 例 如 ， 在 分 类 时 用 的 默认 参数 是 径 向 基 核 函数 。 可 以 通过 函数 
ksvm() 的 帮助 页 面 获取 更 多 的 细节 。 











支持 癌 量 机 分 类 的 结果 并 不 如 支持 癌 量 机 回归 的 结果 好 。 这 并 不 意 
味 着 我 们 声明 这 是 用 支持 癌 量 机 技术 所 能 获得 的 最 好 结果 。 这 些 都 只 是 
说 明 如 何在 R 中 使 用 这 些 建 模 技术 的 简单 例子 。 














3.4.23 ”多 元 目 适 应 回归 样 条 








多 元 自 适 应 回归 样 条 (MARS) (Friedman, 1991) 是 自 适 应 回归 





模型 〈Hastie and Tibshirani, 1990) 的 一 个 例子 。 一 个 多 元 自 适 应 回归 
样 条 模型 具有 以 下 一 般 形 式 : 


mars( x ) = co + > ¢,B,(x) (3-17) 


其 中 ci 是 利 数 ，Bi (x) ARRA. 





基 屿 数 可 以 有 多 种 不 同 的 表现 形式 ， 从 简单 第 量 到 描述 两 个 或 多 个 
变量 相互 关系 的 函数 。 但 是 ， 最 常见 的 基 函 数 是 所 谓 的 饼 链 函数 ， 有 如 
下 形式 : 


H| - (x, -t)] = max(0,t-x;) HIl+(x,-t)| = max(0,x; - t) 


其 中 Xi 是 一 个 预测 变量 ，t 是 该 预测 变量 的 界限 值 。 图 3-5 给 出 这 两 
个 函数 的 一 个 例子 。 


—— max(0,x-3.5) 
~~ max(0,3,5-x) 





图 3-5 ANA AA R BS EH -F 





在 R 中 已 经 至 少 有 两 个 添加 包 实 现 了 多 元 目 适 应 回归 样 条 模型 。 添 


加 包 mda (Leisch etal., 2009) 包含 了 函数 mars0， 该 函数 实现 了 多 元 自 
适应 回归 样 条 方法 。 添 加 包 earth (Milborrow, 2009) 中 的 函数 earth0O) 同 
样 也 实现 了 多 元 自 适 应 回归 样 条 方法 。 从 建 模 函数 提供 的 基于 公式 的 接 
口 来 看 ， 函 数 earth() 有 着 能 够 遵循 更 标准 的 R 构 架 的 优势 。 同 时 添加 包 
earth 还 实现 了 其 他 添加 包 所 不 具有 的 功能 ， 因 此 我 们 选择 添加 包 earth。 





下 面 是 应 用 函数 earthO 进 行 回 归 的 代码 : 


> library (earth) 

> e <- earth(Tform, Tdata.train[1:1000, ]) 

> e.preds <- predict(e, Tdata.train[1001:2000, ]) 

> sigs.e <- trading.signals(e.preds, 0.1, -0.1) 

> true.sigs <- trading.signals(Tdata.train[1001:2000, "T.ind.GSPC"], 
+ 0.3, “O59 

> sigs.PR(sigs.e, true.sigs) 


precision recall 
s 0.2785714 0.2228571 


b 0.4029851 0.1698113 
stb 0.3188406 0.1976048 


得 到 的 结果 与 支持 向 量 机 的 回归 结果 相差 不 大 ， 决 策 精 确 度 约 为 
30%， 回 济 精 确 度 要 更 低 一 些 。 





多 元 上 自 适 应 回归 样 条 只 适用 于 回归 问题 ， 所 以 在 分 类 问题 方面 我 们 
就 不 再 举例 说 明 。 


关于 多 元 自 适 应 回归 样 条 的 参考 文献 


多 元 自 适应 回归 样 条 可 以 参考 具有 权威 性 的 Ftiedman (1991) 的 原 


始 文章 。 这 是 一 篇 很 好 的 文章 ， 它 提供 了 所 有 关于 推动 
样 条 的 发 展 以 及 系统 中 技术 应 用 的 所 有 细节 。 这 篇 
学 家 工作 意见 和 有 趣 的 讨论 。 


1] 作为 对 象 的 属性 。 
2] 可 以 在 网 站 : http://www.kernel-machines.org 上 得 到 该 
自 


ISS oO 


多 元 自 适应 回归 
还 包括 了 其 他 科 


类 模型 的 大 量 信 


3.5 ”从 预测 到 实践 


这 节 描 述 如 何 应 用 上 节 的 模型 所 得 到 的 预测 信号 。 给 定 模型 输出 的 
一 组 信和 号， 可 有 许多 方式 将 它们 运用 于 市 场 的 交易 决策 。 





3.5.1 如 何 应 用 预测 模型 


在 本 案例 中 ， 我 们 假设 在 期 贷 市 场 进行 交易 。 期 货 市 场 是 在 合约 基 
础 上 进行 交易 的 ， 合 约 规定 在 未 来 茶 个 确定 的 时 间 、 以 未 来 市 场 决 定 的 
价格 买 入 或 者 卖 出 商品 。 这 些 合 约 的 撤 术 细节 超过 了 本 书 的 范围 。 但 
征 ， 从 客观 的 角度 看 ， 这 意味 着 我 们 的 交易 系统 将 可 以 采取 两 种 交易 头 
T: 多 头头 寸 〈 也 称 为 多 头 仓位 ) 和 空头 头寸 〈 也 称 为 空头 仓位 ) 。 多 
头头 才 是 指 在 圭 刻 、 以 价格 p 买 入 商品 ， 随 后 在 时 刻 t+x 卖 出 。 当 交易 者 
预期 未 来 价格 上 涨 时 ， 这 样 的 头 才 对 交易 者 来 广 是 有 意义 的 ， 进 行 这 种 
交易 使 他 获取 利润 。 做 空头 头寸 时 ， 交 易 者 在 时 刻 t、 以 价格 p 卖 出 证 
券 ， 同 时 他 们 有 义务 在 未 来 买 回 同样 的 证 券 。 由 于 可 以 借入 证 券 的 交易 
模式 ， 这 种 空头 头寸 也 是 可 能 的 《有 关 该 模式 的 细节 ， 请 参阅 其 他 文 
档 ， 例 如 维基 百科 ) 。 因 为 当 证 券 价格 下 降 时 ， 他 们 可 以 在 时 刻 t 后 的 
茶 个 时 刻 买 入 并 偿还 所 借 证 券 ， 从 而 获 利 。 简略 地 说 ， 当 认为 价格 会 下 
降 时 开 空 头 仓 位 ， 认 为 价格 会 上 涨 时 开 多 头 仓位 。 














给 出 一 组 交易 信号 ， 可 以 有 许多 方式 在 期 货 市 场 上 应 用 它们 。 下 面 
将 描述 我 们 的 模型 实验 中 将 应 用 并 进行 比较 的 一 些 具 有 可 信和 性 的 交易 策 
略 。 由 于 空间 和 时 间 限 制 ， 这 里 不 可 能 进一步 探讨 该 重要 问题 。 但 是 ， 
读者 可 以 练习 一 些 其 他 具有 可 信和 性 的 策略 ， 并 可 以 开 及 和 洽 试 其 他 可 能 
的 策略 。 


我 们 应 用 的 第 一 个 交易 策略 机 制定 这 样 的。 首先 ， 将 在 一 天 股票 收 
盘 时 执行 所 有 的 决定 ， 也 就 是 在 了 解 当前 所 有 的 日 报价 信息 后 。 假 设 在 
茶 日 收盘 时 ， 我 们 的 模型 提供 证 据 表 明 价 格 正在 下 跌 ， 即 预测 出 一 个 
很 低 的 T 值 或 者 一 个 卖 出 的 信号 。 如 果 我 们 现在 持 有 多 头头 寸 ， 那 么 模 
型 给 出 的 信号 将 被 忽视 ， 如 果 我 们 现在 没有 持 有 多 头 仓位 ， 我 们 就 可 以 
发 出 卖 空 指令 ， 建 立 空头 头寸 。 当 这 个 指令 在 未 来 东 个 时 候 以 价格 pr 执 
行 时 ， 我 们 将 立即 跟 上 其 他 两 个 指令 。 第 一 个 指令 是 一 个 限 价 购 买 的 指 
令 ， 限 制 价格 为 prp%， 这 里 p% 为 目标 收益 率 。 这 类 指令 只 有 当 市 场 价 
格 达到 或 低 于 限制 价格 时 才 会 执行 。 该 指令 给 出 了 当前 卖 空 操作 的 利润 
目标 。 我 们 将 会 等 待 10 天 以 达到 这 个 目标 。 如 果 指 令 在 最 后 期 限 前 没有 
执行 ， 我 们 将 以 第 10 天 的 收盘 价 买 入 。 第 二 种 指令 是 止 损 指 令 ， 价 格 上 
限 是 pr+196。 这 种 指令 的 目的 是 限制 我 们 上 面 做 卖 空 操 作 的 最 终 损 失 。 
如 果 市 场 价格 到 达 限 定价 格 的 prt1%， 那 么 该 指令 将 执行 ， 因 此 我 们 的 
损失 可 以 限制 在 1%。 














如 末 模 型 提供 的 预测 表明 : 价格 将 在 近期 上 涨 ， 表 示 指 标 T 的 预测 


值 较 高 或 者 给 出 买 入 信号 时 ， 我 们 将 考 夸 开 多 头 仓 位 。 只 有 当 我 们 现在 
没有 任何 仓位 时 ， 才 会 建 这 类 仓位 。 带 着 这 个 目标 ， 我 们 会 在 时 刻 t、 
以 价格 p 完 成 一 个 买 入 指令 。 和 前 面 一 样 ， 我 们 将 立即 跟 上 两 个 新 指 
令 。 第 一 个 指令 将 是 卖 出 限制 价 指令 ， 目 标价 格 为 pr+p9%， 只 有 当 价格 
高 于 或 等 于 pr+p9% 时 ， 这 个 指令 才 执 行 。 这 种 限 价 指令 和 先前 一 样 有 10 
天 的 期 限 。 第 二 种 指令 是 卖 出 止 损 限 制 ， 限 制 价格 为 prl19%， 这 将 再 次 
限制 我 们 的 最 终 损失 为 1%。 





第 一 种 策略 有 些 保 守 ， 因 为 它 在 任 一 时 刻 只 能 有 一 个 仓位 。 此 外 ， 
在 经 过 10 天 等 待 目 标 利 润 后 ， 立 即 平 仓 。 我 们 也 会 考虑 一 个 有 更 多 “ 风 
险 ” 的 交易 策略 。 后 一 策略 与 前 一 个 类 似 ， 如 条 有 预测 信号 表明 价格 上 
升 ， 如 果 有 足够 的 资金 ， 那 么 总 是 开 新 的 多 头 仓位 。 另 外 ， 我 们 可 以 一 
直 等 每 直到 所 持仓 位 到 达 目 标 利润 或 到 达 最 大 允许 的 损失 。 








我 们 只 考虑 这 两 个 主要 的 交易 策略 ， 这 两 个 全 上 略 所 应 用 的 参数 可 以 
有 细微 的 变化 〈 例 如 ， 持 有 期 、 预 期 收益 率 ， 或 在 每 个 仓位 上 投资 的 资 
金 量 ) 。 如 前 所 述 ， 这 里 所 选择 的 两 个 集 略 主要 以 说 明 为 目的 。 


3.5.2 与 交易 相关 的 评价 准则 


3.3.4 节 阐述 过 的 模型 性 能 的 衡量 标准 不 能 直接 应 用 到 本 案例 的 应 用 
中 。 本 案例 模型 性 能 的 衡量 需要 与 经 济 效益 相 结合 。 在 本 案例 的 背景 
下 ， 像 经 济 效益 和 一 些 金融 工具 所 暴露 的 风险 等 指标 是 本 案例 的 模型 需 
要 考虑 的 关键 指标 。 这 些 指标 可 能 就 需要 一 章 的 篇 幅 来 进行 说 明 。R 的 
性 能 分 析 添 加 包 PerformanceAnalytics (Carl and Peterson, 2009) 实现 了 
分 析 某 些 交 易 算 法 性 能 的 诸多 金融 指标 ， 例 如 分 析 本 章 交 易 的 一 些 金融 
指标 。 我 们 将 使 用 这 个 添加 包 所 提供 的 函数 收集 我 们 需要 的 经 济 效益 指 
标 信息 。 我 们 的 交易 评估 将 关注 方法 的 整体 效果 、 风 险 暴 露 和 根据 模型 
提示 所 建立 的 每 个 仓位 (头寸 ) 的 平均 结果 。3.7 节 介绍 的 对 我 们 给 出 
的 交易 系统 的 最 终 评估 中 ， 我 们 将 使 用 这 个 添加 包 所 提供 的 工具 进行 更 
深入 的 交易 系统 性 能 分 析 。 








我 们 将 使 用 以 下 3 个 指标 来 衡量 交易 的 整体 结果 : 1) 初始 资本 与 测 
试 期 期 末 资 本 之 间 的 净 差 额 〈 有 时 称 为 利润 /损失 ) ; 2) AUT NE 
的 百分比 收益 率 ; 3) 买 入 并 持 有 策略 的 超额 回报 。 这 个 策略 包括 在 调 
试 期 开始 开 多 头 仓位 和 等 待 到 最 后 平 仓 。 用 购买 并 持 有 的 收益 来 衡量 我 
们 的 交易 策略 和 这 个 简单 策略 之 间 的 差异 。 





对 于 与 风险 相关 的 测量 ， 我 们 将 使 用 夏普 比率 系数 测量 每 单位 风险 





的 回报 ， 风 险 由 收益 的 标准 侦 关 来 衡量 。 我 们 也 将 计算 出 跌幅 最 大 值 

(最 大 回 撤 ) ， 以 测量 出 模型 的 最 大 连续 累积 损失 。 对 于 交易 者 ， 这 是 
一 个 重要 的 风险 测量 ， 大 系统 有 一 个 严重 的 最 大 回 撤 ， 残 可 能 导致 没有 
资金 来 投入 该 交易 系统 ， 因 为 投资 者 肯定 会 害怕 这 些 连续 亏损 并 撤 出 他 


们 的 资金 。 








最 后 ， 根 所 测试 期 所 持 有 仓位 的 数量 、 每 个 仓位 的 平均 收益 、 僵 利 
仓位 的 百分比 以 及 其 他 相关 性 不 大 的 绩效 指标 来 评估 它们 的 效果 。 


3.5.3 ”模型 集成 : 仿真 交易 





本 节 将 描述 如 何 实现 前 面 几 节 通 过 模型 给 出 的 信号 来 进行 交易 的 想 
法 。 本 书 给 出 的 添加 包 提 供 的 函数 trading.simulator0 把 上 面 的 想法 结合 
在 一 起 ， 实 现 对 任何 模型 给 出 的 信号 进行 交易 仿真 的 功能 。 这 个 函数 的 
主要 参数 是 仿真 期 间 的 市 场 报价 和 同一 时 期 的 模型 信号 。 男 外 两 个 参数 
是 肯定 义 交 易 集 略 的 函数 及 其 参数 列表 。 最 后 ， 我 们 也 可 以 指定 每 一 
交易 的 成 本 和 交易 者 能 够 提供 的 初始 资本 。 模 拟 嚣 会 在 每 天 收盘 时 调用 
用 户 提供 的 交易 策略 函数 ， 而 用 尸 交 易 策略 函数 应 该 返回 它 需 要 模拟 器 
执行 的 交易 指令 。 模 拟 需 在 市 场 上 执行 这 些 指令 并 用 多 个 数据 结构 记录 
下 所 有 的 交易 活动 。 模 拟 的 结果 是 一 个 tradeRecord 类 对 象 ， 它 包含 该 次 
仿真 的 信息 。 这 个 对 象 可 以 用 于 获取 经 济 评估 指标 的 函数 或 绘制 交易 活 
动 图 表 的 函数 ， 这 些 将 在 之 后 的 操作 中 看 到 。 











在 给 出 这 种 类 型 的 仿真 实例 之 前 ， 我 们 需要 提供 用 于 模拟 器 的 交易 
策略 函数 的 更 多 细节 。 应 该 使 用 某 种 协议 来 编写 这 些 函 数 ， 也 就 是 说 ， 
它们 应 该 意识 到 模拟 器 将 如 何 调 用 它们 ， 同 时 它们 如 何 返 回 模 拟 器 所 期 
TAKA. 








每 一 个 股票 交易 日 4 收盘 之 后 ， 模 拟 器 用 四 个 主要 参数 以 及 用 户 提 
供 的 任何 其 他 参数 来 调用 交易 策略 函数 。 这 四 个 参数 是 : 1) 含有 直到 d 


天 的 预测 信号 的 一 个 向 量 ; 2) 市 场 报价 (直到 d 天 〉 ; 3) 当前 持仓 情 
bis: 4) 交易 者 当前 可 使 用 的 资金 。 当 前 持仓 情况 是 一 个 矩阵 ， 该 矩阵 
的 行 数 与 4 天 收盘 时 的 持仓 数 相等 。 该 矩阵 有 4 列 : “pos.type” 为 1 代表 多 
头 仓 位 ，-1 代 表 空 头 仓位 ; “N.stocks" 是 该 仓位 中 的 股票 数 ; “Odate” 是 
指 开 仓 的 日 期 〈 日 期 在 1 一 d 之 间 ) ; “Oprice” 是 开 仓 时 的 价格 。 这 个 甜 
阵 的 行 名 称 含 有 仓位 的 标识 符 〈ID) ， 当 我 们 需要 模拟 器 平 仓 某 个 特定 


仓位 时 需要 用 到 该 ID。 











所 有 这 些 模拟 器 提供 的 信息 能 确保 用 户 可 以 定义 一 个 较 大 的 交易 党 
略 冰 数 集合 。 用 户 自 定义 的 策略 函数 应 该 返回 一 个 含有 交易 指令 集合 的 
数据 框 ， 返 回 的 交易 指令 将 由 模拟 器 执行 。 这 个 交易 指令 数据 框 应 包括 
以 下 信息 〈 列 ) : “order” 为 1 代表 买 入 指令 ，-1 代 表 卖 出 指 
令 ; “order.type” 为 1 代表 需要 立刻 执行 的 市 场 指令 (实际 上 古 以 次 日 的 
开盘 价 执行 ) ，2 代 表 限 价 指令 ，3 代 表 止 损 指 令 ; “val”* 是 指 开 仓 指令 中 
的 交易 股票 数量 ，NA 有 是 指 平 仓 指令 ， 或 者 限 价 指令 与 止 损 指 令 中 的 目 
标价 格 ;“action” 的 值 是 “open” 代 表 开 新 仓位 指令 ， 或 者 取 值 为 “close” 代 
表 平 仓 已 有 仓位 的 指令 ; 最 后 ，“posID” 如 果 取 值 非 空 ， 其 内 容 是 需要 
平 仓 的 仓位 ID。 





下 面 是 用 户 定 义 的 交易 全 上 略 的 示例 : 


> policy.1 <- function(signals,market,opened.pos,money, 
bet=0.2,hold.time=10, 
exp.prof=0.025, max.loss= 0.05 
) 


wy 


d <- NROW(market) # this is the ID of today 
orders <- NULL 

nOs <- NROW(opened.pos) 

# nothing to do! 

if (!n0s && signals[d] == 'h') return(orders) 


# First lets check if we can open new positions 
# i) long positions 
if (signals[d] == 'b' && !nOs) { 
quant <- round(bet*money/market [d,'Close'] ,0) 
if (quant > 0) 
orders <- rbind(orders, 
data. frame (order=c(1,-1,-1),order.type=c(1,2,3), 
val = c(quant, 
market [d,'Close']*(i+exp.prof), 
market [d,'Close']*(1-max.loss) 
Js 
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和 十 呈 二 二 十 二 


Ww 


action = c(‘open','close','close'), 
posID = c(NA,NA,NA) 
) 
) 


# ii) short positions 
} else if (signals[d] == 's' && !nOs) { 
# this is the nr of stocks we already need to buy 
# because of currently opened short positions 
need2buy <- sum(opened.pos[opened.pos[,'pos.type']==-1, 
"N.stocks"])*market [d,'Close'] 
quant <- round (bet*(money-need2buy) /market [d,'Close'] ,0) 
if (quant > 0) 
orders <- rbind(orders, 
data. frame (order=c(-1,1,1),order.type=c(1,2,3), 
val = c(quant, 
market [d,'Close']*(1-exp.prof), 
market [d,'Close']*(1+max. loss) 
) 3 
action = c(‘open','close','close'), 
posID = c(NA,NA,NA) 
) 
) 
} 


# Now lets check if we need to close positions 
# because their holding time is over 
if (n0s) 
for(i in 1:n0s) { 
if (d - opened.pos[i,'Odate'] >= hold.time) 
orders <- rbind(orders, 
data. frame (order=-opened.pos[i,'pos.type'], 
order.type=1, 
val = NA, 
action = 'close’', 
posID = rownames (opened. pos) [i] 
) 
) 
} 


orders 


函数 policy.10 实 现 了 3.5.1 节 中 所 描述 的 第 一 条 交易 策略 。 该 函数 有 
四 个 参数 用 来 调整 这 个 朱 略 。 这 四 个 参数 分 别 是 :参数 bet 指 明 我 们 每 
次 开 新 仓位 时 所 投资 的 金额 占 当 前 资金 的 百分比 参数 exp.prof 表 明 我 
们 所 期 望 的 当前 仓位 的 收益 率 ， 当 我 们 执行 限 价 指令 的 时 候 会 用 到 该 参 
Bl; 参数 max.loss 表 明 平 仓 前 我 们 所 能 承受 的 最 大 损失 ， 该 参数 用 于 止 
损 指 令 ;， 参 数 hold.time 表 明 为 实现 指定 收益 率 ， 我 们 愿意 等 竺 的 天 数 。 
如 末 等 待 了 hold.time 天 ， 仍 然 没有 得 到 想 要 的 收益 率 ， 该 仓位 将 被 平 


US 








注意 ， 每 当 我 们 建立 一 个 新 的 仓位 时 ， 我 们 给 模拟 需 发 送 三 条 指 
令 : 一 个 当前 市 场 价 开 立新 的 仓位 指令 ， 一 个 限 价 指令 来 指明 我 们 的 目 
标 收 益 率 和 一 个 止 损 指令 限制 我 们 的 损失 。 





同样 ， 以 下 函数 实现 我 们 的 第 二 个 交易 策略 : 


> 
+ 
+ 
+ 
+ 
+ 


二 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 二 十 十 十 十 十 十 十 十 二 不 二 十 十 十 十 十 十 二 二 二 二 十 十 


policy.2 <- function(signals,market,opened.pos,money, 


{ 


bet=0.2,exp.prof=0.025, max.loss= 0.05 
) 


d <- NROW(market) # this is the ID of today 
orders <- NULL 


nOs <- NROW(opened.pos) 
# nothing to do! 
if (!nOs && signals[d] == 'h') return(orders) 


# First lets check if we can open new positions 
# i) long positions 
if (signals{d] == 'b') { 
quant <- round(bet*money/market [d,'Close'] ,0) 
if (quant > 0) 
orders <- rbind(orders, 
data. frame (order=c(1,-1,-1),order.type=c(1,2,3), 
val = c(quant, 
market [d,'Close']*(1+exp.prof), 
market [d,'Close'] *(1-max. loss) 
action = c(‘open','close','close'), 
posID = c(NA,NA,NA) 
) 
) 


# ii) short positions 
} else if (signals[d] == 's') { 
# this is the money already committed to buy stocks 
# because of currently opened short positions 
need2buy <- sum(opened.pos{opened.pos[,'pos.type']==-1, 
"N. stocks") )*market [d,'Close'] 
quant <- round (bet*(money-need2buy) /market [d,'Close'] ,0) 
if (quant > 0) 
orders <- rbind(orders, 
data. frame (order=c(-1,1,1),order.type=c(1,2,3), 
val = c(quant, 
market [d,'Close']*(1-exp.prof), 
market [d,'Close']*(1+max. loss) 
) ? 
action = c(‘open','close','close'), 
posID = c(NA,NA,NA) 
) 
) 


orders 


这 个 函数 与 之 前 的 第 一 个 交易 策略 沙 数 非常 相似。 它们 的 主要 差异 


FEF: 该 交易 策略 允许 在 同一 时 间 开 立 多 个 仓位 ， 也 没有 限制 平 仓 的 时 


间 。 


定义 了 交易 稼 略 函 数 之 后 ， 我 们 就 准备 好 了 来 尝试 交易 模拟 器 。 为 
了 演示 方便 ， 我 们 将 选择 数据 集中 的 一 个 较 小 数据 子 集 ， 建 并 支持 问 量 


机 模型 ， 


然后 用 该 模型 来 获取 之 后 一 个 时 间 段 的 预测 值 。 在 某 个 交易 策 


上 略 下 ， 用 预测 值 来 调用 交易 模拟 器 ， 得 到 利用 支持 癌 量 机 的 交易 信 写 所 
获得 的 交易 结果 。 代 码 如 下 : 


# Train and test periods 
start <- 1 
len.tr <- 1000 
len.ts <- 500 
tr <- start: (start+len.tr-1) 
ts <- (starttlen.tr): (start+len.tr+len.ts-1) 
# getting the quotes for the testing period 
data (GSPC) 
date <- rownames(Tdata.train[start+len.tr,]) 
market <- GSPC[paste(date,'/',sep='')] [1:len.ts] 
# learning the model and obtaining its signal predictions 
library (e1071) 
s <- svm(Tforn, Tdata.train[tr,],cost=10,gamma=0.01) 
p <- predict (s,Tdata.train[ts,]) 
sig <- trading.signals(p,0.1,-0.1) 
# now using the simulated trader 
ti <- trading.simulator(market,sig, 
‘policy. 1', list (exp. prof=0.05,bet=0.2,hold.time=30) ) 


请 注意 ， 要 运行 以 上 代码 ， 你 必须 提前 创建 用 于 建 模 的 数据 对 象 ， 
具体 方法 请 参见 3.3.3 节 。 


在 调用 交易 模拟 器 时 ， 我 们 采用 第 一 种 交易 集 略 ， 提 供 了 一 些 不 同 
的 值 给 它 的 人 菏 些 参数 。 我 们 使 用 默认 的 交易 成 本 5 个 货币 单位 )、 默 
认 的 初始 资本 〈100 万 货币 单位 ) 。 指 令 的 结果 是 一 个 tradeRecord 类 对 
象 。 我 们 可 以 检查 该 返回 对 象 的 内 容 ， 如 下 所 示 : 


> tl 
Object of class tradeRecord with slots: 


trading: <xts object with a numeric 500 x 5 matrix> 
positions: <numeric 16 x 7 matrix> 

init.cap : le+06 

trans.cost : 5 

policy.func : policy.1 

policy.pars : <list with 3 elements> 


> summary(t1) 
== Summary of a Trading Simulation with 500 days == 
Trading policy function : policy.1 


Policy function parameters: 
exp.prof = 0.05 


bet = 0.2 
hold.time = 30 
Transaction costs : 5 
Initial Equity : le+06 
Final Equity : 997211.9 Return: -0.28 % 


Number of trading positions: 16 


Use function "tradingEvaluation()" for further stats on this simulation. 


函数 tradingEvaluationO) 用 于 获得 在 模拟 交易 期 间 的 一 系列 表示 交易 
效果 的 经 济 指标 : 


> tradingEvaluation(t1) 


NTrades NProf PercProf PL Ret RetOverBH 
16.00 8.00 50.00 -2788.09 -0.28 -7.13 
MaxDD SharpeRatio AvgProf AvgLoss AvgPL MaxProf 

59693.15 0.00 4.97 -4.91 0.03 5.26 

MaxLoss 

-5.00 


也 可 以 使 用 函数 plot0， 绘 制 一 个 交易 效果 的 概览 


> plot(ti, market, theme = "white", name = "SP500") 


该 命令 的 结果 如 图 3-6 所 示 。 
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图 36 在 支持 向 量 机 的 预测 信号 基础 上 ， 应 用 第 一 个 策略 的 交易 结 
Ñ 





图 3-6 显 示 这 个 交易 的 效果 不 好 ， 收 益 率 为 负 值 。 如 末 采 用 第 二 个 
交易 策略 ， 交 易 结果 会 不 同 吗 ? 看 看 下 面 的 代码 : 


> t2 <- trading.simulator(market, sig, "policy.2", list(exp.prof = 0.05, 
+ bet = 0.3)) 
> summary (t2) 


== Summary of a Trading Simulation with 500 days == 


Trading policy function : policy.2 
Policy function parameters: 


exp.prof = 0.05 


bet = 0.3 
Transaction costs : 5 
Initial Equity : le+06 
Final Equity : 961552.5 Return: -3.84 % 


Number of trading positions: 29 


Use function "tradingEvaluation()" for further stats on this simulation. 


> tradingEvaluation(t2) 


NTrades NProf PercProf PL Ret RetOverBH 
29.00 14.00 48.28 -38447.49 -3.84 -10.69 
MaxDD SharpeRatio AvgProf AvgLoss AvgPL MaxProf 

156535 .05 -0.02 4.99 -4.84 -0.10 5.26 

MaxLoss 

-5.00 


使 用 相同 的 交易 信号 ， 但 应 用 不 同 的 交易 策略 ， 收 益 率 从 -0.279%6 下 
降 到 了 -2.86%。 让 我 们 用 一 个 不 同 的 训练 和 测试 时 间 有 段 再 做 一 次 上 述 的 
实验 : 


start <- 2000 

len.tr <- 1000 

len.ts <- 500 

tr <- start:(start + len.tr - 1) 

ts <- (start + len.tr):(start + len.tr + len.ts - 1) 

s <- svm(Tform, Tdata.train[tr, ], cost = 10, gamma = 0.01) 

p <- predict(s, Tdata.train[ts, ]) 

sig <- trading.signals(p, 0.1, -0.1) 

t2 <- trading.simulator(market, sig, "policy.2", list(exp.prof = 0.05, 
bet = 0.3)) 

summary (t2) 
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== Summary of a Trading Simulation with 500 days == 


Trading policy function : policy.2 
Policy function parameters: 


exp.prof = 0.05 
bet = 0.3 
Transaction costs : 5 
Initial Equity : le+06 
Final Equity : 107376.3 Return: -89.26 % 


Number of trading positions: 229 


Use function "tradingEvaluation()" for further stats on this simulation. 


> tradingEvaluation(t2) 


NTrades NProf PercProf PL Ret RetOverBH 
229.00 67.00 29.26 -892623.73 -89.26 -96.11 
MaxDD SharpeRatio AvgProf AvgLoss AvgPL MaxProf 
959624. 80 -0.08 5.26 -4.50 -1.65 5.26 
MaxLoss 
-5.90 


这 次 模拟 交易 应 用 了 相同 的 建 模 技术 和 相同 的 交易 策略 ， 获 得 了 相 
当 糟 糕 的 结果 。 这 里 得 到 的 主要 经 验 是 : 需要 可 靠 的 统计 估计 。 不 要 被 
少数 几 次 的 重复 实验 结果 所 愚弄 ， 即 使 测试 期 区 间 为 两 年 也 是 不 够 的 。 
我 们 需要 不 同 条 件 下 更 多 的 重复 次 数 ， 以 确保 所 得 到 的 结果 在 统计 上 是 
可 靠 的 。 对 于 时 间 序 列 模型 尤其 如 此 ， 这 类 模型 的 不 同时 期 可 能 有 不 同 














的 模式 例如， 不 同 的 时 期 有 不 同 的 波动 京 或 不 同 的 趋势 ) 。 这 是 3.6 


市 将 要 讨论 的 问题 。 


3.6 ”模型 评价 和 选择 


本 节 将 学 习 如 何 获取 模型 交易 效果 评价 指标 的 可 靠 佑 计 ， 这 些 指标 
的 估计 值 可 以 使 我 们 合理 地 对 多 个 不 同 的 交易 系统 进行 比较 和 选择 。 


3.6.1 RERI att 


时 间 序 列 问 题 ， 例 如 我 们 正在 处 理 的 问题 ， 给 获取 可 靠 的 模型 评价 
旨 标 的 估计 值 带 来 新 的 挑战 。 这 是 由 于 所 有 的 时 间 序 列 数据 观察 值 都 附 
有 一 个 时 间 标 签 ， 这 个 时 间 标 签 给 出 了 数据 的 一 个 内 在 顺序 。 这 个 顺序 
要 特别 注意 ， 以 防止 出 现 不 可 靠 估计 值 的 风险 。 在 第 2 章 ， 我 们 用 交 
又 验证 的 方法 来 获取 评价 指标 的 可 靠 估计 值 。 这 种 方法 包括 了 一 个 随机 
重新 抽样 步 又 来 改变 原始 观测 值 的 顺序 。 这 意味 着 交叉 验证 方法 不 适用 
于 时 间 序 列 问题 。 采 用 这 种 方法 意味 着 用 于 模型 测试 的 观测 值 可 能 比 用 
于 建立 模型 的 训练 集 数 据 还 要 时 间 久 远 。 在 现实 中 这 是 不 可 行 的 ， 因 此 
通过 这 个 过 程 获取 的 估计 值 是 不 可 靠 的 并 且 可 能 过 于 乐观 。 因 为 给 定 未 
来 的 观测 值 会 更 容易 地 预测 过 去 的 观测 值 ， 有 反之 则 不 然 。 




















运用 时 间 序 列 数 据 的 估计 过 程 中 应 当 确 保 用 于 模型 测试 的 数据 比 建 
立 模 型 的 数据 新 。 这 意味 着 不 能 对 观测 值 采 用 随机 重新 抽样 的 方法 或 者 
其 他 可 能 改变 时 间 序 列 数 据 的 时 间 标 俭 的 过 程 。 然 而， 任何 合理 的 估计 





过 程 应 当 包括 一 些 随 机 选择 过 程 ， 以 确保 所 获取 估计 值 的 统计 可 靠 性 。 
这 包括 了 在 不 同 条 件 下 多 次 重复 估计 过 程 ， 最 好 包含 随机 选择 过 程 。 给 
宋 一 个 时 间 序 列 数 据 ， 其 时 间 区 间 从 时 间 t~~tt+rN， 我 们 如 何 实现 带 有 随 
机 选择 的 重复 估计 过 程 ? 首先 ， 我 们 需 选择 用 于 模型 估计 的 训练 集 和 测 
试 集 数 据 。 这 就 要 决定 用 于 模型 估计 过 程 的 训练 集 和 测试 集 数据 的 大 

小 。 这 两 个 数据 集 的 大 小 之 和 应 小 于 N， 这 样 才能 确保 我 们 可 以 从 已 知 
数据 集中 随机 选择 用 于 重复 实验 的 不 同 数据 集 。 然 而 ， 如 果 我 们 选择 太 
小 的 训练 集 ， 它 束 可 能 严重 影响 模型 的 性 能 。 同 样 ， 太 小 的 测试 集 可 能 
会 导致 模型 不 稳定 。 特 别 是 如 果 我 们 怀疑 时 间 序 列 中 存在 模式 变化 ， 我 
们 希望 在 这 种 模式 变化 情况 下 测试 模型 ， 测 试 集 太 小 将 导致 问题 。 














我 们 的 数据 集 包括 大 约 30 年 的 每 日 报价 。 这 里 对 所 有 模型 都 设置 测 
试 集 为 5 年 的 日 报价 数据 ， 训 练 集 为 10 年 的 日 报价 数据 。 这 种 设置 确保 
了 训练 集 和 测试 集 充 分 大 。 而 且 ， 由 于 我 们 有 30 年 的 日 报价 数据 ， 所 以 
这 种 样本 量 的 选择 就 为 测试 过 程 重 复 不 同 的 设置 留 下 了 空间 。 














在 实验 方法 上 ， 我 们 选择 脓 符 卡 罗 实 验 来 获取 模型 评估 指标 的 可 靠 
估计 。 蒙 特 卡 罗 方 法 依 徘 随机 取样 来 获取 估计 结果 。 我 们 将 用 这 个 取样 
过 程 在 30 年 日 报价 数据 中 选择 一 个 由 R 个 数据 点 构成 的 集合 。 对 于 集合 
中 的 每 一 个 随机 选取 的 时 间 点 r， 我 们 用 这 个 时 间 点 之 前 10 年 的 日 报价 
数据 来 获取 模型 并 用 这 个 点 之 后 5 年 的 数据 测试 这 些 模型 。 在 进行 R 次 迭 
代 之 后 ， 我 们 将 得 到 每 个 性 能 评估 指标 的 R 个 估计 值 。 每 一 个 指标 估计 





值 都 是 通过 随机 选取 的 15 年 数据 窗口 得 到 的 ， 前 10 年 用 做 训练 模型 ， 后 
5 年 用 做 测试 模型 。 这 种 设置 确保 了 时 间 序 列 数据 的 时 间 排 序 。 重 复 这 
个 过 程 R 次 ， 将 确保 有 充分 变化 的 训练 和 测试 条 件 ， 这 就 增加 了 估计 值 
的 可 徘 性 。 而 且 ， 如 果 我 们 在 评估 不 同 模型 时 用 同样 一 组 随机 选取 的 R 
个 数据 点 ， 那 么 就 能 够 进行 配对 比较 ， 从 而 得 到 不 同 模型 的 平均 性 能 之 
兰 的 统计 置信 度 水 平 。 图 3-7 总 结 了 上 面 描述 的 驼 特 卡 多 实验 方法 ， 注 
意 对 每 一 个 随机 点 r， 必 须 确保 它 之 前 有 10 年 数据 ， 它 之 后 有 5 年 的 数 
据 ， 这 束 使 系 些 数据 点 被 排除 在 随机 选择 的 R 个 数据 反之 外 。 














| period available for sampling | 


Monte Carlo Repetitions 


图 3-7 RRF Kriti 





第 2 音 中 用 于 进行 k 折 交叉 验证 实验 的 函数 
experimentalComparison0， 也 可 以 用 于 蒙特 卡 罗 实 验 。 在 3.6.2 节 ， 我 们 
将 使 用 这 个 函数 获取 多 个 交易 系统 性 能 评价 指标 的 可 靠 估 计 。 








3.6.2 ”实验 比较 





本 节 摘 述 一 组 蒙特 卡 罗 实 验 ， 它 们 用 于 获取 在 3.3.4 节 和 3.5.2 市 提 到 
的 模型 性 能 评价 指标 的 可 靠 估 计 。 用 于 这 些 实验 的 数据 是 在 3.3.3 节 结尾 
部 分 生成 的 数据 集 。 





在 这 些 实验 中 所 考虑 每 一 个 模型 都 会 使 用 三 个 不 同 的 模型 更 新 设 

置 。 这 些 更 新 方式 已 经 在 3.4.1 节 描述 过 ， 它 们 是 应 用 于 所 有 5 年 测试 集 
的 单一 模型 、 滑 动 窗 口 或 者 增长 窗口 。 本 书 有 两 个 函数 可 以 使 用 具有 任 
何 窗口 模式 的 模型 。 函 数 slidingWindowO 和 函数 growingWindow() 都 有 5 
个 主要 参数 : 第 一 个 参数 是 learner 类 对 象 ， 在 第 2 章 我 们 应 用 过 该 类 对 
象 ， 它 用 来 保存 模型 的 所 有 细节 (函数 名 和 参数 值 ); 第 二 个 参数 是 描 

述 预 测 任 务 的 公式 ; 第 三 个 参数 和 第 四 个 参数 分 别 设置 训练 集 和 测试 集 
数据 ; 第 五 个 参数 是 窗口 模式 所 应 用 的 重 训 练 步 又 ， 在 这 个 参数 指定 测 
试 个 案 的 数量 之 后 ， 将 对 刚刚 获得 的 模型 所 应 用 的 训练 集 数据 进行 滑动 
或 者 增长 ， 然 后 重新 训练 模型 。 两 个 函数 都 使 用 相应 的 窗口 模式 返回 测 
试 集 的 模型 预测 值 。 








下 面 的 代码 创建 了 一 组 函数 ， 它 们 用 于 执行 比较 不 同 交 易 系 统 的 整 
个 “训练 + 测试 + 评估 ”过 程 周 期 。 按 照 图 3-7 所 示 的 蒙特 卡 罗 实 验 模式 ， 
蒙特 卡 罗 过 程 将 在 不 同 的 “训练 + 测试 * 时 期 中 调用 这 些 函数 。 代 码 如 





二 十 十 十 V+ 十 十 十 十 + 十 二 二 V++++++v 


MC.svmR <- function(form, train, test, b.t = 0.1, s.t 
Rs see f 
require(e1071) 
t <- svm(form, train, ...) 
p <- predict(t, test) 
trading.signals(p, b.t, s.t) 
} 
MC.svmC <- function(form, train, test, b.t = 0.1, s.t 
eee i 
require (e1071) 
tgtName <- all.vars(form) [1] 


train[{, tgtName] <- trading.signals(train[, tgtName], 


b.t, s.t) 
t <- svm(form, train, ...) 
p <- predict(t, test) 
factor(p, levels = c("s", "h", "b")) 


} 

MC.nnetR <- function(form, train, test, b.t = 0.1, s.t 
ms he A 
require (nnet) 
t <- nnet(form, train, ...) 


p <- predict(t, test) 


hed 


trading.signals(p, b.t, s.t) 


} 

MC.nnetC <- function(form, train, test, b.t = 0.1, s.t = -0.1, 
ee ae d 
require (nnet) 


tgtName <- all.vars(form) [1] 

train[, tgtName] <- trading.signals(train[, tgtName], 
bE, HE) 

t <- nnet(form, train, ...) 

P <- predict(t, test, type = "class") 

factor(p, levels = c("s", "h", "b")) 


} 
MC.earth <- function(form, train, test, b.t = 0.1, s.t = -0.1, 
Pee KE | 
require (earth) 
t <- earth(form, train, ...) 
p <- predict(t, test) 
trading.signals(p, b.t, s.t) 
} 
single <- function(form, train, test, learner, policy.func, 
re | 
p <- do.call(paste("MC", learner, sep = "."), list(form, 
train, test, ...)) 
eval.stats(form, train, test, p, policy.func = policy.func) 
于 


Slide <- function(form, train, test, learner, relearn.step, 
policy.func, ...) { 
real.learner <- learner(paste("MC", learner, sep = "."), 
pars = list(...)) | 
p <- slidingWindowTest(real.learner, form, train, test, 
relearn.step) 
p <- factor(p, levels = 1:3, labels = c("s", "h", "b")) 
eval.stats(form, train, test, p, policy.func = policy.func) 
} 
grow <- function(form, train, test, learner, relearn.step, 
policy.func, ...) í 
real.learner <- learner(paste("MC", learner, sep = "."), 
pars = list(...)) 
p <- growingWindowTest(real.learner, form, train, test, 
relearn. step) 
p <- factor(p, levels = 1:3, labels = c("s", "h", "b")) 
eval.stats(form, train, test, p, policy.func = policy.func) 


不 


ww 





函数 MC.x0 应 用 所 给 的 公式 和 训练 集 来 获得 不 同 的 模型 ， 并 且 用 已 

给 的 测试 集 来 测试 这 些 模型 ， 然 后 返回 模型 的 预测 值 。 如 果 可 能 ， 我 们 
会 有 两 个 版 本 的 模型 : 一 个 版 本 是 回归 任务 〈 返 回 的 模型 名 以 字 
母 “R” 结 尾 ) ， 男 一 个 版 本 是 分 类 任务 (返回 的 模型 名 以 “C” 结 尾 ) 
症 ， 这 两 个 模型 得 到 的 最 后 预测 信号 的 预 处 理 和 后 处 理 步 骤 是 不 同 的 。 
这 些 函 数 被 函数 single()、 函 数 slide() 和 消 数 grow0O) 调 用 ， 这 三 个 函数 通 
过 使 用 参数 learner 所 指定 的 模型 和 相应 的 模型 更 新 机 制 来 获得 测试 集 的 
预测 值 。 在 获取 预测 值 之 后 ， 这 些 函 数 会 调用 下 面 的 函数 eval.stats() 来 
得 到 想 要 估计 的 模型 评价 指标 统计 量 。 函 数 eval.stats() 的 实现 如 下 : 





> eval.stats <- function(form,train,test,preds,b.t=0.1,s.t=-0.1,...) { 
+ # Signals evaluation 
+ tgtName <- all.vars(form) [1] 


+ test{,tgtName] <- trading.signals(test[,tgtName],b.t,s.t) 
+ st <- sigs.PR(preds,test[,tgtName]) 

+  dim(st) <- NULL 

+ names(st) <- paste(rep(c('prec','rec'),each=3), 

+ c{'s','b','sb'), sep='.') 

+ 

+  # Trading evaluation 

+ date <- rownames(test) [1] 

+ market <- GSPC[paste(date,"/",sep="')][1:length(preds) ,] 
+ trade.res <- trading.simulator(market,preds,...) 

+ 

+ c(st,tradingEvaluation(trade.res)) 

+F 


函数 eval.statsO0) 用 其 他 两 个 函数 来 收集 信号 的 决策 精确 度 、 回 调 精 


确 度 ， 以 及 其 他 几 个 经 济 评价 指标 。 函 数 sigs.PRO 接 收 的 参数 是 预测 信 

号 和 真实 信号 ， 它 分 别 计算 卖 出 、 买 入 和 “ 卖 出 + 买 入 ”信号 的 决策 精确 

度 和 回溯 精确 度 。 另 一 个 函数 是 tradingEvaluation0， 它 用 来 获得 给 定 交 

易 记 录 的 经 济 评价 指标 ， 而 这 个 交易 记录 是 用 函数 trading.simulator(O 获 

取 的 ， 该 函数 可 用 来 按照 模型 信号 在 市 场 上 进行 模拟 交易 。 以 上 所 有 这 
函数 已 在 3.5.3 节 中 充分 介绍 过 























在 蒙特 卡 罗 程 序 中 调用 适当 参数 设置 的 函数 single()、 函 数 slide() 和 
函数 grow0， 可 以 得 到 我 们 需要 比较 的 模型 。 以 下 介绍 如 何 建立 一 个 循 
环 程序 ， 在 循环 中 运行 一 系列 的 交易 系统 ， 并 调用 这 些 函 数 来 获取 这 些 
交易 系统 的 性 能 估计 。 每 一 个 交易 系统 由 一 些 具 有 特定 参数 的 学 习 模 型 
和 交易 策略 构成 。 交 易 策略 将 指示 交易 中 如 何 应 用 模型 的 预测 信号 。 下 
面 我 们 考虑 三 种 交易 策略 ， 它 们 是 从 3.5.3 节 描述 的 策略 (policy.10 和 
policy.20) 衍生 而 来 ， 以 下 函数 实现 这 三 个 衍生 策略 :; 


> poli <- function(signals,market,op,money) 

+ policy.1(signals,market,op,money, 

+ bet=0.2,exp. prof=0.025,max.loss=0.05,hold.time=10) 
> pol2 <- function(signals,market,op,money) 

+ policy.i(signals,market,op,money, 

十 bet=0.2,exp.prof=0.05,max.loss=0.05, hold. time=20) 
> pol3 <- function(signals,market, op,money) 

+ policy.2(signals,market,op,money, 

+ bet=0.5,exp.prof=0.05,max.loss=0.05) 





下 列 代码 运行 蒙特 卡 罗 实 验 。 这 里 建议 你 在 运行 下 列 代码 前 要 慎重 





考虑 。 即 使 在 速度 相当 快 的 计算 机 上 ， 也 需要 儿 天 才能 运行 完 下 列 程 
序 。 在 本 书 的 网 站 上 ， 我 们 提供 了 运行 这 个 实验 所 得 到 的 结果 。 所 以 你 
不 用 运行 该 实验 也 可 以 重复 3.6.3 节 的 结果 分 析 。 


# The list of learners we will use 

TODO <- c(‘svmR','svmC','earth','nnetR','nnetC') 

# The datasets used in the comparison 

DSs <- list (dataset (Tform, Tdata.train,'SP500')) 

# Monte Carlo (MC) settings used 

MCsetts <- mcSettings(20, # 20 repetitions of the MC exps 
2540, # ~ 10 years for training 
1270, # ~ 5 years for testing 
1234) # random number generator seed 

# Variants to try for all learners 

VARS <- list() 

VARS$svmR <- list(cost=c(10,150), gamma=c(0.01,0.001), 

policy. func=c('pol1','pol2','po13')) 
VARS$svmC <- list (cost=c(10,150),gamma=c(0.01,0.001), 
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policy. func=c('poll','pol2','po13')) 
VARS$earth <- list (nk=c(10,17) ,degree=c(1,2),thresh=c(0.01,0.001), 
policy. func=c('poli1','pol2','po13')) 
VARS$nnetR <- list (linout=T,maxit=750,size=c(5,10), 
decay=c(0.001,0.01), 
policy. func=c('pol1','po12','po13')) 
VARS$nnetC <- list (maxit=750,size=c(5,10),decay=c(0.001,0.01), 
policy. func=c('pol1','po12','po13')) 
# main loop 
for(td in TODO) { 
assign(td, 
experimentalComparison( 
DSs, 
c( 
do.call('variants', 
c(list (‘single' , learner=td) , VARS[[td]], 
varsRootName=paste('single',td,sep='.'))), 
do.call('variants', 
c(list('slide', learner=td, 
relearn. step=c(60,120)), 
VARS[[td]], 
varsRootName=paste('slide',td,sep='.'))), 
do.call('variants', 
c(list (‘grow', learner=td, 
relearn.step=c(60,120)), 
VARS[[td]], 
varsRootName=paste('single',td,sep='.'))) 
De 
MCsetts) 
) 


# save the results 
save (list=td, file=paste(td,'Rdata',sep='.')) 
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MCsetts 对 象 控制 实验 的 总 体 参数 ， 它 给 出 重复 的 次 数 (20) 、 训 
练 集 的 大 小 〈2540 天 一 10 年 ) 、 测 试 集 的 大 小 〈1270 天 一 5 年 ) 、 所 用 
的 随机 数 生成 器 的 种 子 。 


列表 VARS 给 出 了 我 们 将 要 实验 的 每 个 模型 的 所 有 参数 变化 ， 列 表 
中 给 出 参数 的 所 有 可 能 的 组 合 就 是 所 有 可 能 的 参数 变化 。 在 3 个 不 同 的 
模型 更 新 模式 ( 单 窗 口 、 滑 动 窗口 和 增 广 窗口 中 运行 每 一 个 参数 变 
化 。 此 外 ， 对 于 后 面 两 个 模型 更 新 模式 ， 我 们 会 尝试 两 个 重新 训练 步 
RR: 60 天 和 120 天 。 


对 于 svm 模 型 ， 我 们 实验 了 4 个 训练 参数 变化 和 3 个 不 同 的 交易 策 
略 ， 就 有 12 个 模型 变 体 ， 对 于 earth 模 型 ， 实 验 了 24 个 模型 变 体 ， 对 于 
nnet 模 型 ， 也 实验 了 12 个 模型 变 体 。 每 一 个 模型 变 体 将 在 单个 模式 及 4 
个 窗口 模式 《两 个 策略 和 两 个 不 同 的 重复 训练 步骤 ) 下 运行 。 显 然 ， 这 
将 导致 需要 进行 大 量 的 实验 。 即 ， 一 共有 60 〈=12+24+24) 个 svm 模 型 
变 体 、120《〈=24+48+48) 个 earth 模 型 变 体 和 60 个 nnet 模 型 变 体 。 它 们 中 
的 每 一 个 都 将 对 10 年 的 训练 集 和 5 年 的 测试 集 重 复 执行 20 次 。 这 就 是 为 
什么 我 们 说 运行 这 个 实验 需要 花 很 长 时 间 。 然 而 ， 在 描述 这 个 问题 的 时 
候 ， 我 们 提 到 这 里 的 实验 仅仅 是 所 有 解决 方法 中 的 一 个 小 例子 。 其 中 有 
太 多 的 “小 ”决定 ， 将 导致 我 们 有 其 他 不 同 的 实验 方式 (如 买 入 和 卖 出 的 
界限 值 以 及 其 他 学 习 系统 等 ) 。 这 意味 着 在 本 案例 的 应 用 领域 ， 任 何 正 
式 的 尝试 都 需要 大 量 的 计算 资源 来 进行 合适 的 模型 选择 ， 显 然 这 在 本 书 
的 讨论 范畴 之 外 。 这 里 的 目的 是 给 读者 提供 适合 的 方法 指导 而 不 是 对 这 
里 的 特定 数据 找 出 最 好 的 交易 系统 。 














3.6.3 ”结果 分 析 





3.6.2 ”市 提供 的 代码 生成 了 5 个 数据 文件 ， 这 些 文件 中 的 对 象 售 有 
实验 的 5 个 训练 系统 所 有 模型 变 体 的 实验 结果 。 这 些 数据 文件 被 命名 
为 “svmR.Rdata”、“svmC.Rdata”、“earth.Rdata”、“nnetR.Rdata” 和 “nnetC.] 
每 一 个 文件 都 包含 与 文件 相同 名 字 【 除 文件 扩展 名 外 ) 的 对 象 。 这 些 对 
象 是 compExp 类 对 象 ， 本 书 添 加 包 中 含有 探索 这 些 对 象 所 存储 结果 的 多 
种 方法 。 





也 许 你 没有 亲自 运行 这 个 实验 ， 那 么 你 可 在 本 书 网 站 上 找到 这 5 个 
数据 文件 ， 将 它们 下 载 到 计算 机 中 ， 并 运行 以 下 代码 将 这 些 对 象 载 入 R 
软件 。 





> load("svmR.Rdata") 
> load("svmC.Rdata") 
> load("earth.Rdata") 
> load("nnetR.Rdata") 
> load("nnetC.Rdata") 


对 于 每 一 个 交易 系统 变 体 ， 我 们 测量 了 多 个 性 能 指标 。 有 些 性 能 指 
标 用 来 衡量 信号 预测 的 正确 性 ， 另 一 些 指标 用 来 衡量 应 用 这 些 信和 号 进行 
交易 时 的 经 济 效 果 。 根 据 对 实验 中 得 到 这 些 性 能 指标 的 综合 考虑 ， 决 定 
哪 一 个 模型 是 最 好 的 。 最 终 选 定 的 模型 可 能 取决 于 我 们 最 注重 的 那个 性 








能 指标 。 





尽管 性 能 评价 的 指标 有 多 种 ， 但 是 其 中 的 某 些 指 标 更 具有 相关 性 。 
在 我 们 的 案例 中 ， 在 衡量 预测 信号 正确 性 的 评价 指标 中 ， 预 测 精确 度 指 
标 比 回溯 精确 度 指标 更 重要 。 实 际 上 ， 预 测 精确 度 和 预测 信号 相关 ， 而 
预测 信号 将 决定 是 否 开 立新 的 仓位 等 交易 行为 。 低 预测 精确 度 是 因为 预 
测 信 号 错误 ， 它 意味 着 在 错误 的 时 间 开 立 仓 位 。 这 显然 会 导致 极 大 的 损 
失 。 而 回溯 精确 度 则 没有 这 种 潜在 的 损失 ， 它 衡量 模型 捕获 交易 机 会 的 
能 力 。 如 果 回 溯 精 确 度 取 值 较 低 ， 就 意味 着 机 会 的 错失 ， 但 并 不 意味 着 
高 损失 。 因 此 ， 我 们 对 模型 的 “prec.sb” 统 计量 特别 感 兴 趣 ， 它 衡量 买 入 
信号 和 卖 出 信号 的 预测 精确 度 。 























对 交易 效果 衡量 而 言 ， 交 易 系 统 的 回报 很 重要 (实验 中 的 统计 
量 “Ret”) ， 买 入 并 持 有 策略 的 回报 《实验 中 的 统计 量 “RetOverBH”) 也 
很 重要 。 礁 利 交 易 所 占 百 分 比 也 同样 重要 ， 显 然 它 应 该 在 50% (统计 
量 “PercProf”)〉 以 上 。 在 衡量 风险 分 析 方 面 ， 这 里 考虑 夏普 比率 值 
(“Sharp”) 和 最 大 回 撤 值 (“MaxDD”) 。 








函数 summaryO 可 以 用 于 已 经 载 入 的 compExp 对 象 。 然 而 ， 考 虑 到 
很 大 数量 的 模型 变 体 和 性 能 指标 统计 量 ， 输 出 结果 的 内 容 是 相当 多 的 。 








男 一 种 方式 是 使 用 本 书 添加 包 提 供 的 函数 rankSystems()。 使 用 这 个 
函数 ， 可 以 获得 感 兴趣 的 评价 指标 的 最 优 取 值 ， 它 指出 最 好 的 模型 以 及 


相应 的 评价 指标 值 。 代 码 如 下 : 


> tgtStats <- c('prec.sb','Ret','PercProf', 

+ 'MaxDD' ,'SharpeRatio') 

> allSysRes <- join(subset(svmR,stats=tgtStats), 
+ subset (svmC, stats=tgtStats), 
+ subset (nnetR, stats=tgtStats), 
+ subset (nnetC, stats=tgtStats), 
+ subset (earth, stats=tgtStats), 
+ by = 'variants') 

> rankSystems(allSysRes,5,maxs=c(T,T,T,F,T)) 


$SP500 
$SP500$prec.sb 
system score 


1 slide.svmC.v5 
2 slide.svmC.v6 
3 slide.svmC.v13 
4 slide.svmC.vi4 
5 slide.svmC.v21 


$SP500$Ret 


a pi xs ie jed 


system score 


oP WH rr- 


$SP500$PercProf 
system 


single.nnetR.vi2 97.4240 
Single.svmR.vil 3.4960 
Slide.nnetR.v15 2.6230 
single.svmC.vi2 0.7875 

single.svmR.v8 0.6115 


score 


1 grow.nnetR.v5 60.4160 
2 grow.nnetR.v6 60.3640 
3 slide.svmR.v3 60.3615 
4 grow.svmR.v3 59.8710 
5 grow.nnetC.vi 59.8615 


$SP500$MaxDD 
system 
1 slide.svmC.v5 
2 slide.svmC.v6 
3 grow.svmC.v5 
4 grow.svmC.v6 
5 slide.svmC.vi3 


score 
197 . 3945 
197 . 3945 
197 . 3945 
197.3945 
399 . 2800 


$SP500$SharpeRatio 


system 
1 slide.svmC.v5 
2 slide.svmC.v6 
3 slide.svmC.vi13 
4 slide.svmC.vi4 
5 slide.svmC.v21 


score 
0.02 
0.02 
0.02 
0.02 
0.02 





函数 subsetO 可 以 应 用 于 compExps 对 象 ， 选 择 存 储 在 这 些 对 象 中 的 
部 分 信息 。 这 时 ， 我 们 只 选择 估计 出 的 性 能 指标 的 子 集 。 然 后 ， 我 们 使 
用 函数 join0 将 所 有 的 模型 变 体 合 在 一 起 ， 存 储 在 一 个 compExps 对 象 
中 。 这 个 函数 可 以 把 具有 不 同 维 数 的 compExps 对 象 结合 在 一 起 。 本 委 
例 中 模型 变 体 的 其 他 实验 条 件 是 一 样 的 ， 因 此 这 样 结合 是 有 意义 的 。 最 
后 ， 我 们 运用 函数 rankSystems() 从 我 们 所 有 的 交易 系统 的 性 能 指标 中 选 
择 出 分 值 最 高 的 5 个 。 最 好 的 性 能 指标 值 随 指标 不 同 而 变化 。 有 时 我 们 
需要 最 高 的 指标 值 ， 有 时 却 需要 最 低 的 指标 值 。 这 可 以 用 函数 
rankSystems() 中 的 参数 maxs 来 设 定 ， 它 可 以 指定 哪个 指标 需要 最 大 化 的 
取 值 。 





我 们 观察 这 5 个 最 优 性 能 指标 ， 发 现 它们 或 者 采用 svm 算 法 ， 或 者 采 
用 nnet 算 法 。 为 一 个 显而易见 的 模式 是 ， 几 乎 所 有 的 这 些 模型 变 体 都 运 
用 了 荣 个 窗口 机 制 。 这 提供 了 窗口 机 制 优 于 单一 模型 的 茶 种 证 据 ， 也 可 
以 认为 它 确 认 了 这 些 数据 有 模式 变化 。 我 们 也 可 以 观察 到 多 个 显著 的 
(或 可 疑 的 ) 分 数 ， 即 买 入 或 者 夹 出 信号 的 预测 精确 度 。 获 得 100% 的 
预测 精确 度 是 很 奇怪 的 。 和 仔细 检查 这 些 交 易 系 统 的 结果 ， 它 揭示 得 到 这 
么 高 的 分 数 ， 是 由 于 在 5 年 测试 期 中 有 极 少 的 信号。 








> summary(subset (svmC, 
+ stats=c('Ret','RetOverBH' ,'PercProf','NTrades'), 
+ vars=c('slide.svmC.v5','slide.svmC. v6'))) 


== Summary of a Monte Carlo Experiment == 


20 repetitions Monte Carlo Simulation using: 


seed = 1234 
train size = 2540 cases 
test size = 1270 cases 


SP500 
slide.svmC.v5, slide.svmC.v6 


* Datasets :: 
* Learners 


* Summary of Experiment Results: 


-> Datataset: SP500 


*Learner: slide.svmC.v5 


Ret RetOverBH PercProf NTrades 
avg 0.0250000 -77.10350 5.00000 0.0500000 
std 0.1118034 33.12111 22.36068 0.2236068 
min 0.0000000 -128.01000 0.00000 0.0000000 
max 0.5000000 -33.77000 100.00000 1.0000000 
invalid 0.0000000 0.00000 0.00000 0.0000000 

*Learner: slide.svmC.v6 

Ret RetOverBH PercProf NTrades 
avg 0.0250000 -77.10350 5.00000 0.0500000 
std 0.1118034 33.12111 22.36068 0.2236068 
min 0.0000000 -128.01000 0.00000 0.0000000 
max 0.5000000 -33.77000 100.00000 1.0000000 
invalid 0.0000000 0.00000 0.00000 0.0000000 


事实 上 ， 这 些 方法 在 整个 测试 期 内 至 多 进行 了 一 次 交易 ， 其 平均 收 
益 为 0.259%6， 这 比 简单 的 买 入 并 持 有 策略 的 收益 低 -77.19%， 这 些 显然 是 
无 用 的 模型 。 


对 整体 排名 的 最 后 一 个 评论 是 ， 就 最 大 回 撤 而 言 ， 不 能 认为 模型 太 
SR, PATTIES LAR EET SARIN 


为 了 得 出 对 所 有 这 些 模型 变 体 的 结论 ， 需 要 对 这 些 模 型 性 能 统计 指 
标 增 加 一 些 约束 条 件 。 我 们 假设 以 下 最 小 值 : 1) 一 个 合理 的 平均 交易 
数量 ， 例 如 需 超过 20; 2) 平均 回报 至 少 大 于 0.5% (考虑 到 这 些 交 易 系 
统 平均 回报 的 取 值 较 低 ， 因 此 设 为 该 值 ); 3) 仍 利 交易 的 百分比 大 于 
40%。 现 在 检查 一 下 是 否 有 交易 系统 满足 这 些 约束 条 件 。 








fullResults <- join(svmR, svmC, earth, nnetC, nnetR, by = "variants") 
nt <- statScores(fullResults, "NTrades")[[1]] 

<- statScores(fullResults, "Ret") [[1]] 

<- statScores(fullResults, "PercProf")[[1]] 

<- names(nt) [which(nt > 20)] 

<- names(rt) {which(rt > 0.5)] 

s3 <- names(pp) [which(pp > 40)] 

namesBest <- intersect(intersect(s1, s2), s3) 
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summary (subset (fullResults, 
stats=tgtStats, 
vars=namesBest) ) 


== Summary of a Monte Carlo Experiment == 


20 repetitions Monte Carlo Simulation using: 
seed = 1234 
train size = 2540 cases 
test size = 1270 cases 


* Datasets :: SP500 
* Learners :: single.nnetR.vi2, slide.nnetR.v15, grow.nnetR.v1i2 


* Summary of Experiment Results: 


-> Datataset: SP500 
*Learner: single.nnetR.vi2 

prec.sb Ret PercProf MaxDD SharpeRatio 
avg 0.12893147 97.4240 45.88600 1595761.4 -0.01300000 
std 0.06766129 650.8639 14.04880 2205913.7 0.03798892 
min 0.02580645 -160.4200 21.50000 257067.4 -0.08000000 
max 0.28695652 2849.8500 73.08000 10142084.7 0.04000000 
invalid 0.00000000 0.0000 0.00000 0.0 0.00000000 


*Learner: slide.nnetR.vi5 
prec.sb Ret PercProf MaxDD SharpeRatio 
avg 0.14028491 2.62300 54.360500 46786.28 0.01500000 
std 0.05111339 4.93178 8.339434 23526.07 0.03052178 
min 0.03030303 -7.03000 38.890000 18453.94 -0.04000000 
max 0.22047244 9.85000 68.970000 99458.44 0.05000000 
invalid 0.00000000 0.00000 0.000000 0.00 0.00000000 


*Learner: grow.nnetR.vi2 
prec.sb Ret PercProf MaxDD SharpeRatio 
avg 0.18774920 0.544500 52.66200 41998.26 0.00600000 
std 0.07964205 4.334151 11.60824 28252.05 0.03408967 
min 0.04411765 -10.760000 22.22000 18144.11 -0.09000000 
max 0.33076923 5.330000 72.73000 121886.17 0.05000000 
invalid 0.00000000 0.000000 0.00000 0.00 0.00000000 


为 了 获取 满足 上 述 约 束 条 件 的 交易 系统 变 体 的 名 字 ， 我 们 使 用 了 本 
书 添加 包 中 的 statScores0) 函 数 。 该 函数 的 参数 包括 compExp 对 象 以 及 性 
能 指标 的 名 字 ， 在 默认 情况 下 ， 该 函数 提供 所 有 交易 系统 在 这 些 性 能 指 





标 上 的 平均 值 。 该 函数 的 结果 是 一 个 列表 ， 列 表 的 元 素 个 数 和 实验 中 数 
扼 集 的 个 数 相同 在 我 们 的 实验 中 是 一 个 单一 数据 集 ) 。 用 户 可 以 在 函 
数 statScores() 的 第 三 个 可 选 参数 中 指定 一 个 函数 来 获取 为 一 个 数值 汇 忌 
量 ， 而 不 是 平均 值 。 使 用 这 个 函数 获得 的 结果 ， 将 得 到 满足 每 一 个 约束 
条 件 的 交易 系统 的 名 称 。 运 用 函数 intersect()〔 它 是 多 个 指标 值 集合 的 交 
集 ) ， 束 可 以 获得 满足 所 有 约束 条 件 的 交易 系统 的 名 称 。 














正如 我 们 看 到 的 ， 在 我 们 比较 的 240 个 交易 系统 变 体 中 只 有 3 个 交易 
系统 满足 这 些 最 小 约束 。 所 有 这 3 个 系统 都 应 用 回归 任务 并 且 都 是 基于 
神经 网 络 模型 。 这 3 个 模型 以 不 同 的 方式 来 应 用 训练 集 数据 。 方 
法 “single.nnetR.v12” 没 有 应 用 任何 窗口 机 制 ， 并 且 获 得 了 极 高 的 平均 回 
报 值 97.4%。 然 而 ， 如 果 我 们 仔细 观察 这 个 交易 系统 的 结果 ， 就 会 发 现 
在 其 中 的 一 次 迭代 ， 该 系统 的 回报 很 低 ， 为 -160.40%。 显 然 ， 该 系统 的 
结果 是 极其 不 稳定 的 ， 它 的 标准 差 很 大 ， 为 650.86%， 这 也 验证 了 该 系 
统 结果 的 不 稳定 性 。 另 外 两 个 系统 的 得 分 相似 。 下 面 代 码 运 用 函数 
compAnalysis() 来 对 结果 进行 显著 性 统计 分 析 。 








> compAnalysis(subset (fullResults, 
十 stats=tgtStats, 
+ vars=namesBest)) 


== Statistical Significance Analysis of Comparison Results == 
Baseline Learner:: single.nnetR.vi2 (Learn.1) 
** Evaluation Metric:: prec.sb 


- Dataset: SP500 
Learn. 1 Learn.2 sig.2 Learn.3 sig.3 


AVG 0.12893147 0.14028491 0.18774920 + 
STD 0.06766129 0.05111339 0.07964205 
** Evaluation Metric:: Ret 


-~ Dataset: SP500 
Learn.1 Learn.2 sig.2 Learn.3 sig.3 


AVG 97.4240 2.62300 - 0.544500 一 
STD 650.8639 4.93178 4.334151 
** Evaluation Metric:: PercProf 


- Dataset: SP500 

Learn.1 Learn.2 sig.2 Learn.3 sig.3 
AVG 45.88600 54.360500 + 52.66200 
STD 14.04880 8.339434 11.60824 


** Evaluation Metric:: MaxDD 


- Dataset: SP500 
Learn.1 Learn.2 sig.2 Learn.3 sig.3 


AVG 1595761 46786.28 -- 41998.26 — 
STD 2205914 23526.07 28252.05 
** Evaluation Metric:: SharpeRatio 
- Dataset: SP500 
Learn.1 Learn.2 sig.2 Learn.3 sig.3 
AVG -0.01300000 0.01500000 + 0.00600000 
STD 0.03798892 0.03052178 0.03408967 
Legends: 


Learners -> Learn.i = single.nnetR.vi2 ; Learn.2 = slide.nnetR.vi5d ; 
Learn.3 = grow.nnetR.vi2 ; 
Signif. Codes -> 0 '++' or '--' 0.001 '+' or '-' 0.05 '' 1 


注意 以 上 代码 会 生成 一 些 警 告 ， 那 是 由 于 茶 些 系统 不 能 获得 茶 些 性 
能 指标 的 有 效 值 所 导致 的 〈 例 如， 没有 买 入 或 者 卖 出 信号 将 导致 无 效 的 
决策 精确 度 得 分 ) 。 








尽管 结果 存在 变化 性 ， 但 以 上 Wilcoxon 检 验 告 诉 我 们 ， 交 易 系 
统 “single.nnetR.v122 的 平均 回报 以 95% 的 置信 度 大 于 其 他 交易 系统 。 然 
而 ， 就 其 他 性 能 指标 而 言 ， 这 个 系统 明显 比 其 他 系统 差 。 


通过 绘制 compExp 对 象 ， 可 以 较 好 地 了 解 这 些 性 能 指标 在 20 次 重复 
实验 中 的 分 布 情况 。 代 码 如 下 : 


> plot(subset (fullResuits, 
+ stats=c('Ret','PercProf','MaxDD'), 
+ vars=namesBest) ) 


以 上 代码 的 结果 如 图 3-8 所 示 。 


slide.nnetR.v15 
single.nnetR.vi2 


grow.nnetR.v12 
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图 3-8 最 好 的 3 个 交易 系统 20 次 实验 的 性 能 指标 值 


两 个 应 用 窗口 机 制 的 交易 系统 的 性 能 指标 值 相似 ， 这 使 得 对 它们 的 
区 分 比较 困难 。 相 反 ，“single.nnetR.v12” 的 结果 却 明 显 和 上 面 两 个 系统 
不 一 样 。 我 们 可 以 发 现 ， 它 之 所 以 能 有 较 高 的 平均 回报 ， 原 因 是 其 中 的 
一 个 蒙特 卡 罗 实 验 有 明显 异 弟 的 回报 值 《大约 为 28009%) 。 这 个 系统 的 
其 他 指标 的 估计 值 看 起 来 要 明显 比 另外 两 个 系统 差 。 为 了 满足 我 们 的 好 


奇 ， 可 以 运用 函数 getVariant() 检 查 这 个 特定 交易 系统 的 设置 情况 ， 代 码 
如 下 : 


> getVariant ("single.nnetR.v12", nnetR) 
Learner:: "single" 


Parameter values 
learner = "nnetR" 
linout = TRUE 
trace = FALSE 
maxit = 750 
size = 10 
decay = 0.01 
policy.func = "pol3" 


从 上 面 的 输出 结果 可 知 ， 该 系统 应 用 了 交易 策略 “pol3”， 使 用 了 含 
有 10 个 隐藏 层 且 学 习 的 桶 变 率 为 0.01 的 神经 网 络 模型 。 








总 之 ， 根 据 上 面 的 分 析 结 果 ， 如 果 需 要 从 上 面 考虑 过 的 模型 中 选择 
一 个 ， 由 于 系统 “single.nnetR.v12” 的 不 稳定 性 ， 我 们 可 以 不 考虑 这 个 交 
易 系 统 。 然 而 ， 在 3.7 市 中 ， 我 们 用 剩余 的 最 后 9 年 的 数据 来 测试 本 市 中 
得 到 这 三 个 最 好 的 交易 系统 ， 然 后 对 最 好 的 系统 进行 最 后 的 评估 。 


3.7 交易 系统 


本 节 描 述 在 最 后 评估 阶段 获得 的 “最 佳 模 型 "的 结 有 末 ， 这 一 部 分 也 是 
模型 比较 和 选择 阶段 的 任务 之 一 。 最 后 评估 时 期 有 9 年 的 报价 数据 ， 我 
们 将 在 这 个 时 期 使 用 模拟 器 ， 应 用 5 个 选 定 的 交易 系统 进行 交易 。 





3.7.1 评估 最 终 测试 数据 


为 了 把 任何 一 个 选 定 的 交易 系统 应 用 于 最 后 评估 期 ， 我 们 需要 之 前 
紧邻 评估 期 10 年 的 报价 数据 。 通 过 这 10 年 的 报价 数据 ， 我 们 构建 模型 ， 
然后 应 用 该 模型 预测 9 年 最 终 评估 期 的 交易 信号 。 在 应 用 窗口 模型 的 系 
统 中 ， 可 能 有 多 个 模型 介入 这 些 预测 。 


下 面 的 代码 将 获取 这 些 系统 在 9 年 测试 期 数据 上 的 性 能 评估 指标 。 


> data <- tail(Tdata.train, 2540) 
> results <- list() 
> for (name in namesBest) { 


+ sys <- getVariant(name, fullResults) 
+ results[{[name]] <- runLearner(sys, Tform, data, Tdata.eval) 
= 


> results <- t(as.data.frame(results)) 





我 们 对 3 个 最 优 模型 进行 循环 ， 用 最 初 的 训练 集 数据 〈10 年 ) 和 作 
为 测试 集 的 评估 期 数据 来 调用 这 些 模型 。 这 些 调用 需要 应 用 到 之 前 定义 





的 函数 single0、 函 数 slide0 和 函数 growO。 之 前 我 们 已 经 看 到 ， 这 些 函 
数 的 结果 是 函数 eval.statsO 所 给 出 的 一 系列 性 能 评价 指标 。 在 循环 结束 
后 ， 我 们 把 得 到 的 结果 列表 转变 成 一 个 更 方便 的 表格 格式 。 


下 面 我 们 检查 一 些 主要 的 性 能 指标 值 : 


> results[, c("Ret", “RetOverBH", "MaxDD", “SharpeRatio", "NTrades", 


+ "PercProf")] 

Ret RetOverBH MaxDD SharpeRatio NTrades PercProf 
single.nnetR.vi2 -91.13 -61.26 1256121.55 -0.03 759 44.66 
slide.nnetR.vi5 -6.16 23.71 107188.96 -0.01 132 48.48 
grow.nnetR.v12 1.47 31.34 84881.25 0.00 89 53.93 


从 结果 中 可 以 确定 ， 在 9 年 期 间 ，3 个 交易 系统 中 只 有 其 中 一 个 获得 
了 正 的 回报 值 ， 其 他 系统 则 都 是 损失 的 。 在 这 3 个 系统 
H, “single.nnetR.v12” 系 统 有 很 低 的 回报 率 ，-91.13%， 这 也 确认 了 该 系 
统 的 不 稳定 性 。“grow.nnetR.v12” 方 法 看 起 来 明显 较 好 ， 它 不 仅 有 正 的 
回报 值 ， 更 有 一 个 较 小 的 最 大 回 撤 值 ， 其 鳃 利 的 交易 百分比 在 50% 以 
上 。 但 是 ， 在 这 个 测试 期 ， 除 “single.nnetR.v12” 系 统 外 ， 其 他 两 个 系统 
明显 好 于 简单 的 买 入 并 持 有 的 市 场 集 略 ， 它 们 超出 买 入 并 持 有 集 略 的 比 
例 分 别 为 23.7% 和 31.4%。 











最 优 模型 具有 以 下 特点 : 


> getVariant ("grow.nnetR.vi2", fullResults) 
Learner:: "grow" 


Parameter values 
learner = "nnetR" 
relearn.step = 120 


linout = TRUE 

trace = FALSE 

maxit = 750 

size = 10 

decay = 0.001 
policy.func = "pol2" 


下 面 我 们 对 最 优 交 易 系 统 在 评估 期 的 性 能 做 更 深入 的 分 析 。 为 了 进 
行 深入 的 分 析 ， 我 们 需要 得 到 该 最 优 交 易 系 统 在 评估 期 的 交易 记录 。 隙 
数 grow() 不 能 给 出 这 些 记录 ， 所 以 我 们 要 通过 其 他 方法 : 

> model <- learner("MC.nnetR", list(maxit = 750, linout = T, 


+ trace = F, size = 10, decay = 0.001)) 
> preds <- growingWindowTest (model, Tform, data, Tdata.eval, 


+ relearn.step = 120) 
> signals <- factor(preds, levels = 1:3, labels = c("s", "h", 
+ "b")) 


> date <- rownames(Tdata. eval) [1] 
> market <- GSPC[paste(date, "/", sep = "")][1:length(signals), 
¥ ] 


> trade.res <- trading.simulator(market, signals, policy.func = "pol2") 


图 3-9 绘 制 了 这 个 最 优 交 易 系 统 的 交易 记录 ， 绘 制 该 图 的 代码 如 


> plot(trade.res, market, theme = "white", name = "SP500 - final test") 
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图 3-9 交易 系统 “grow.nnetR.v12” 在 最 后 评估 期 的 交易 结果 


通过 分 析 图 3-9 可 以 看 出 ， 该 系统 在 很 长 时 间 内 几乎 没有 交易 活 
动 ， 即 在 2003 年 中 期 到 2007 年 中 期 几乎 没有 交易 行为 。 令 人 相当 惊讶 的 
是 ， 在 这 一 段 时 期 ， 市 场 是 显著 鳃 利 的 。 它 在 某 种 程度 上 说 明 ， 尺 管 观 
察 到 该 系统 的 整体 效果 较 好 ， 但 是 它 没 有 表现 出 它 应 该 具有 的 性 能 。 男 


外 还 注意 到 ， 在 2000 一 2003 年 的 市 场 整体 下 降 期 间 ， 以 及 在 2007 一 2009 
年 的 金融 危机 中 ， 该 交易 系统 表现 得 相当 好 。 


性 能 分 析 添 加 包 PerformanceAnalytics 提 供 了 分 析 任 何 交 易 系统 性 能 
的 大 量 工具 。 为 更 好 地 理解 交易 系统 的 性 能 ， 下 面 我 们 提供 这 些 工具 的 
一 个 概览 。 该 添加 包 的 工具 可 以 分 析 和 评估 交易 策略 的 回报 。 可 以 用 如 
下 代码 得 到 策略 的 回报 ; 





> library (PerformanceAnalytics) 
> rets <- Return.calculate(trade.res@trading$Equity) 


请 注意 ， 函 数 Return.calculate() 计 算 的 不 是 我 们 之 前 一 直 应 用 的 收益 
百分比 ， 它 计算 出 的 值 乘 以 因子 100 将 等 于 我 们 之 前 应 用 的 收益 百 
Fb 


图 3-10 显 示 货 略 在 所 有 测试 阶段 的 球 积 收益 率 。 通 过 运行 下 面 的 代 
码 能 够 得 到 图 3-10: 


> chart.CumReturns(rets, main = "Cumulative returns of the strategy", 
+ ylab = "returns") 


Cumulative returns of the strategy 


returns 
0.02 0.04 0.06 0.08 0.10 


0.00 





2000-01-04 2002-01-02 2004-01-02 2006-01-03 2008-01-02 2009-08-31 
Date 


图 3-10 系统 “grow.nnetR.v12” 在 最 终 评估 期 的 累积 收益 率 


对 于 大 多 数 的 时 期 ， 这 个 系统 的 收益 为 正 值 。 在 2008 年 中 期 ， 系 统 
收益 达到 最 大 值 10%。 


WaT ems, ERA BRAHMIN. MSIE 
PerformanceAnalytics 也 提供 了 一 些 工 具 来 进行 这 种 分 析 ， 即 函数 


yearlyReturn(): 


> yearlyReturn(trade.res@trading$Equity) 


yearly.returns 
2000-12-29 0.028890251 
2001-12-31 -0.005992597 


2002-12-31 0.001692791 
2003-12-31 0.013515207 
2004-12-31 0 . 002289826 
2005-12-30 0.001798355 
2006-12-29 0 . 000000000 


2007-12-31 0 . 007843569 
2008-12-31 0 . 005444369 
2009-08-31 -0.014785914 





图 3-11 给 出 了 以 上 年 收益 信息 的 图 形 ， 从 中 可 以 观察 到 只 有 2 年 的 
收益 为 负 值 。 
> plot (100*yearlyReturn(trade.res@trading$Equity), 
+ main='Yearly percentage returns of the trading systen' ) 
> abline(h=0, 1ty=2) 
函数 Table.CalendarReturnsO 给 出 了 更 详细 的 月 收益 百分比 〈 其 中 最 
后 一 栏 是 该 年 的 总 计 ) : 


> table.CalendarReturns(rets) 


Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Equity 
2000 -0.5 0.3 0.1 0.2 00.20.2 0.0 0.0 0.4 0.4 -0.2 1.0 
2001 0.0 -0.3 0.2 -0.1 00.00.0 0.0 0.4 0.00.0 0.0 0.3 
2002. 0.0 -0.1 0.0 -0:2 00.0 0:2 QU -0.3 -01 0-0 0.0 -0:5 
2603 0.0 -0.1 0.0 0.0 00.00.0 0.0 0.0 0.00.0 0.0 -0.1 
2004 0.1 0.0 0.0 0.0 00.00.0 0.0 0.0 0.00.0 0.0 0.0 
2005 0.0 0.0 0.0 -0.2 00.00.0 0.0 0.0 0.00.0 0.0 -0.2 
2006 0.0 0.0 0.0 0.0 00.00.0 0.0 0.0 0.00.0 0.0 NA 
2007 0.0 0.0 0.0 0.2 00.00.0 -0.2 0.0 -0.2 0.2 0.1 0.0 
2008 -0.3 0.5 0.1 0.1 00.00.3 0.0 0.9 0.30.2 0.3 2.3 
2009 -0.5 0.0 -0.2 0.0 00.00.0 0.0 NA NA NA NA -0.6 


Yearly percentage returns of the trading system 





Dec Dec Dec Dec Dec Dec Dec Dec Dec 
2000 2001 2002 2003 2004 2005 2006 2007 2008 


图 3-11“grow.nnetR.v12” 系 统 的 年 收益 信息 


上 表 清 楚 地 显示 出 系统 在 很 长 一 段 时 间 内 没有 交易 ， 许 多 收益 值 为 


最 后 ， 我 们 演示 性 能 分 析 添 加 包 PerformanceAnalytics 提 供 的 风险 分 
析 工 具 。 这 里 我 们 用 函数 table.DownsideRisk() 来 获取 交易 策略 的 风险 分 
析 信 A : 


> table.DownsideRisk(rets) 


Equity 
Semi Deviation 0.0017 
Gain Deviation 0.0022 
Loss Deviation 0.0024 
Downside Deviation (MAR=210%) 0.0086 
0 


Downside Deviation (Rf=0%) .0034 
Downside Deviation (0%) 0.0034 
Maximum Drawdown -0.0822 
Historical VaR (95%) -0.0036 
Historical ES (95%) -0.0056 
Modified VaR (95%) -0.0032 
Modified ES (95%) -0.0051 
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差 。 半 偏差 目前 被 认为 是 一 个 好 于 常用 的 夏普 比率 的 风险 度量 指标 。 更 
多 关于 这 些 统计 指标 的 信息 可 以 参阅 性 能 分 析 添 加 包 
PerformanceAnalytics 的 帮助 文档 。 





忆 的 来 说 ， 前 面 所 做 的 分 析 表 明 ， an 
测试 期 间 在 较 大 的 风险 下 有 很 小 的 收益 。 尽 管 该 区 易 系统 的 效果 明显 好 


于 买 入 并 持 有 人 策略， 这 个 系统 还 不 能 用 来 管理 投资 。 但 是 ， 我 们 必须 

说 ， 这 个 结果 是 预料 之 中 的 。 本 章 的 案例 是 一 个 相当 难 的 问题 ， 因 为 有 
太 多 的 可 能 性 、 太 多 的 变 体 ， 其 中 的 一 些 变 体 已 经 在 本 章 演 示 过 。 本 章 
演示 的 是 所 有 可 能 性 中 的 一 小 部 分 ， 如 果 从 这 一 小 部 分 束 能 得 到 一 个 非 
常 成 功 的 交易 系统 ， 那 将 是 很 令 人 吃惊 的 中。 这 不 是 本 案例 研究 的 目 

的 。 这 里 的 目标 是 提供 给 读者 可 行 的 方法 ， 而 不 是 使 用 这 些 方法 来 进行 
深度 的 研究 而 找到 最 好 的 交易 系统 。 


[1] 如 果 我 们 公开 这 样 一 个 相当 成 功 的 系统 也 是 同样 令 人 吃惊 的 ! 


3.7.2 FERRARA 


假设 我 们 对 得 到 的 这 个 交易 系统 很 满意 。 我 们 如 何在 实际 的 市 场 交 
易 中 实 时 应 用 该 系统 呢 ? 本 节 将 简略 演示 一 个 具有 这 种 实时 功能 的 系 
统 。 


这 个 系统 的 机 制 如 下 。 在 每 天 收盘 之 后 ， 将 自动 调用 该 系统 。 该 系 
统 融 按 照 如 下 步骤 操作 : D 获得 每 天 最 新 的 可 利用 数据 ;2) 进行 它 所 
需要 的 建 模 步骤 ;3) 产生 系统 调用 的 结果 一 一 即 生成 一 系列 的 指令 


假设 我 们 将 要 开发 的 系统 代码 保存 在 文件 “trader.R” 中 。 每 天 收盘 后 
调用 这 个 函数 的 方法 由 操作 系统 决定 。 在 基于 UNIX 的 系统 中 ， 通 第 有 
一 个 名 为 “crontab” 的 表 ， 你 可 以 把 要 求 操作 系统 规则 性 运行 的 程序 加 入 

到 这 个 表 中 。 可 以 在 操作 系统 的 命令 行 输入 下 列 命令 来 编辑 这 个 表 : 





shell> crontab -e 


这 个 表格 中 条 目的 语法 相当 简单 ， 它 由 一 组 描述 周期 和 需要 运行 命 
令 的 字段 构成 。 在 下 面 的 例子 中 ， 它 指示 系统 在 每 个 工作 日 的 下 午 7 点 
运行 程序 “trader.R”， 有 具体 代码 如 下 : 








0 19 * * 1-5 /usr/bin/R --vanilla --quiet < /home/xpto/trader.R 


开始 两 项 分 别 代 表 分 钟 和 小 时 。 第 三 项 和 第 四 项 分 别 代 表 所 在 月 份 
的 哪 一 天 、 月 份 ， 而 星 写 (“*”) 意味 着 对 该 域 的 所 有 情况 部 运行 本 程 
序 。 第 五 项 代表 星期 几 ，1 代 表 星 期 一 ， 用 “-” 来 表明 日 期 区 间 。 最 后 一 


项 是 需要 运行 的 程序 。 




















程序 “trader.R” 实 现 的 一 般 算 法 如 下 : 


- 读 入 当前 交易 系统 的 状态 。 


- 读 入 所 有 可 以 获得 的 最 新 数据 。 


-检查 是 否 需 要 重新 训练 模型 。 


-获得 今天 的 预测 信号 。 


-用 该 预测 信号 来 调用 策略 函数 ， 并 获得 交易 指令 。 


-输出 今天 的 交易 指令 。 





交易 系统 的 当前 状态 是 一 个 数据 结构 ， 它 存储 交易 系统 在 日 常 运行 
中 要 求 记忆 的 信息 。 在 我 们 的 案例 中 ， 它 应 该 包括 目前 的 NNET 模 型 、 
用 来 得 到 该 模型 的 参数 、 用 来 获取 模型 的 训练 数据 和 相关 的 模型 规范 、 
模型 的 “年 龄 ”( 它 对 于 何 时 需要 重新 训练 模型 很 重要 ) 、 到 今天 为 止 系 
统 的 交易 记录 信息 和 现在 的 持仓 头寸 。 理 想 的 情况 下 ， 这 些 信息 应 该 在 
一 个 数据 库 中 ， 然 后 交易 系统 应 用 R 的 数据 库 界面 来 访问 这 些 信息 〈 参 























13.2.4) 。 注 意 ， 有 关 持 有 头 才 的 信息 需要 根据 交易 系统 外 部 的 信息 
来 更 新 ， 因 为 决定 开 仓 和 平 仓 的 时 机 是 市场 。 而 我 们 的 交易 系统 则 相 
反 ， 它 假设 所 有 的 交易 在 下 一 天 的 开始 完成 








如 果 我 们 设置 好 数据 模型 ， 那 么 获取 新 的 数据 就 很 容易 。 在 3.3.2 市 
中 提 到 ， 可 以 用 函数 getModelData() 获 取 最 近 的 报价 ， 从 而 更 新 数据 
集 。 


模型 参数 relearn.step 和 模型 记忆 的 所 有 其 他 参数 一 样 ， 它 设置 何 时 
需要 重新 训练 模型 。 如 果 模 型 的 “年 龄 ?大 于 参数 relearn.step 的 值 ， 那 么 
该 模型 需要 重新 训练 。 如 果 模 型 需要 重新 训练 ， 那 么 我 们 应 该 用 当前 窗 
口 的 数据 调用 函数 MC.nnetRO， 从 而 获得 新 的 模型 。 由 于 我 们 的 最 佳 交 
易 系统 使 用 的 是 增长 窗口 模式 ， 所 以 训练 集 数据 不 断 增 长 。 如 果 它 变 得 
太 大 而 超出 计算 机 的 内 存 ， 这 可 能 就 成 为 一 个 问题 。 如 果 这 种 情况 发 
生 ， 可 以 考虑 丢弃 太 旧 的 训练 集 数 据 ， 从 而 修 枉 训练 集 数 据 使 得 它 的 大 
小 可 以 被 计算 机 接受 。 





最 后 ， 我 们 必须 得 到 今天 的 交易 信号 预测 。 这 意味 着 需要 用 当前 的 
预测 模型 调用 函数 predict() 以 获得 训练 集 最 后 一 行 的 预测 值 ， 即 今天 的 
预测 值 。 有 了 这 个 预测 值 ， 束 可 以 调用 具有 适当 参数 的 交易 全 略 ， 从 而 


得 到 今天 的 交易 指令 集合 。 这 束 是 最 终 的 程序 结 





上 面 的 大 概 轮廓 给 你 提供 了 实现 一 个 实时 交易 系统 的 足够 信息 。 
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本 章 的 主要 目的 是 同 读者 介绍 一 个 更 加 实用 的 数据 挖掘 采 例 。 本 章 
描述 的 案例 具有 多 个 挑战 性 : 1) 处 理 时 间 序 列 数据 ; 2) 处 理 可 能 具有 
模式 变化 的 非常 动态 的 系统 ，3) 从 预测 模型 转 到 应 用 领域 的 具体 行 
动 。 


从 方法 术语 的 角度 ， 本 章 介 绍 了 下 列 新 的 主题 : 
-时 间 序 列 建 模 。 


处 理 带 有 窗口 机 制 的 模式 变化 。 





ATHAN. 
CREN. 
“多 元 上 自 适 应 回归 样 条 。 


用 蒙特 卡 罗 方法 来 评估 时 间 序列 模型 。 


几 个 预测 稀有 事件 或 者 金融 交易 系统 性 能 的 新 的 评价 指标 。 


从 学 习 R 的 角度 ， 我 们 演示 了: 


:如 何 处 理 时 间 序 列 。 


如何 从 不 同 的 来 源 读 入 数据 ， 例 如 数据 库 。 





如何 获 得 多 种 新 的 模型 (支持 癌 量 机 、 神 经 网 络 、 多 元 目 适 应 回 
归 样 条 ) 。 


如何 应 用 多 个 用 于 金融 模型 的 R 添 加 包 。 
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案例 就 是 这 种 问题 的 一 个 实际 案例 。 也 就 是 说 ， 找 到 罕见 的 和 特殊 的 观 
测 值 。 这 类 应 用 的 动因 是 茶 些 公司 的 销售 员 所 报告 的 一 系列 产品 的 交易 
情况 。 目 的 是 找到 “奇怪 的 ?交易 记录 报告 ， 它 可 能 指出 茶 些 销售 员 涉 嫌 
欺诈 。 数 据 挖掘 的 结果 有 助 于 公司 的 事后 检查 活动 。 由 于 公司 分 配给 事 
后 检查 工作 的 资源 有 限 ， 所 以 希望 数据 挖掘 过 程 能 提供 菏 种 欺诈 概 率 排 
序 作 为 输出 结果 。 这 些 排序 可 以 使 公司 以 最 佳 方式 来 利用 其 事后 检查 资 
源 。 这 种 总 资源 有 限 的 检查 活动 在 很 多 领域 有 广泛 应 用 ， 如 信用 卡 区 
易 、 税 务 申 报 检验 等 。 本 章 讨 论 多 个 新 的 数据 挖掘 主题 : 1) 离 群 值 或 


异 前 值 检验 ; 2)〉 聚 类 分 析 ; 3) 半 监 督 预测 模型 。 

















4.1 问题 描述 与 目标 





考虑 到 在 经 济 和 社会 领域 中 经 常 存在 欺诈 交易 等 非法 活动 ， 因 此 欺 
诈 检 验 是 数据 挖掘 技术 的 一 个 重要 应 用 领域 。 从 数据 分 析 的 角度 ， 欺 诈 
行为 通常 与 异常 的 观测 值 相关 联 ， 因 为 这 些 欺 诈 行 为 是 偏离 常规 的 。 在 
多 个 数据 分 析 领 域 ， 这 些 偏离 常规 的 行为 经 常 称 为 离 群 值 。 事 实 上 ， 离 
群 值 的 标准 定义 是 “一 个 观测 值 与 其 他 观测 值 偏 离 太 多 而 引起 猜疑 ， 认 
为 它 产 生 于 不 同 的 机 制 ”(Hawkins，1980) 。 

















本 案例 使 用 的 数据 是 茶 公 司 的 销售 员 所 报告 的 交易 数据 。 这 些 销 售 
员 负 责 销售 该 公司 的 产品 并 定期 报告 销售 情况 。 我 们 得 到 的 数据 是 一 个 
较 短 时 期 内 的 销售 数据 。 销 售 员 可 按照 自己 的 策略 和 市 场 情况 来 自由 设 
置 销售 价格 。 每 月 末 ， 他 们 癌 公 司 报告 销售 情况 。 数 据 挖掘 应 用 的 目的 
是 根据 公司 过 去 发 现 的 交易 报告 中 的 错误 和 欺诈 企图 ， 帮 助 公司 完成 核 
实 这 些 销售 报告 真实 性 的 工作 。 我 们 提供 一 份 欺诈 率 排名 的 报告 ， 这 个 
欺诈 率 排 名 将 允许 公司 把 有 限 的 检验 资源 分 配给 系统 所 提示 的 更 “可 
疑 ” 的 那些 报告 。 








4.2 可 用 的 数据 


我 们 所 用 的 数据 来 自 一 个 未 公开 的 渠道 并 被 匿名 。 数 据 共计 401146 
行 ， 每 一 行 包 括 来 自 销 售 员 报 告 的 信息 。 这 些 信 息 包 括 销售 员 的 ID 号 、 
产品 编号 、 销 售 员 所 报告 的 销售 数量 和 总 价值 。 该 公司 已 经 对 这 些 数据 
进行 过 一 些 分 析 ， 分 析 的 结果 显示 在 最 后 一 列 ， 它 们 是 公司 对 交易 进行 
检查 的 结果 。 总 之 ， 我 们 应 用 的 数据 集 包 括 以 下 各 列 : 











ID: 说明 销售 员 ID 的 一 个 因子 变量 。 





‘Prod: 说 明 销 售 产品 ID 号 的 一 个 因子 变量 。 
‘Quant: 报告 该 产品 销售 的 数量 。 
‘Val: 报告 销售 记录 的 总 价值 。 


‘Insp: 有 3 个 可 能 值 的 因子 变量 一 一 ok 表示 公司 检查 了 该 交易 并 认 
为 该 交易 有 效 ; fraud 表 示 发 现 该 交易 为 欺诈 ; unkn 表 示 该 交易 未 经 过 公 


A 


4.2.1 加 载 数 据 人 至 R 


该 数据 集 可 在 本 书 的 R 添 加 包 或 者 本 书 网 站 上 获得 。 在 本 书 网 站 


上 ， 本 和 案例 的 数据 是 一 个 Rdata 文 件 ， 它 是 包含 本 和 案例 数据 集 的 一 个 数 
据 框 。 如 果 要 使 用 本 书 网 站 的 数据 ， 需 要 先 下 载 这 个 文件 到 计算 机 的 本 
地 目录 下 ， 然 后 运行 





> load("sales.Rdata") 





如 琳 当 前 运行 R 的 目录 古 下 载 文 件 的 目录 ， 那 么 该 命令 将 从 这 个 文 
件 中 把 数据 载 入 到 一 个 名 为 sales 的 数据 框 。 





如 琳 使 用 本 书 添加 包 中 的 数据 ， 那 么 应 该 进行 如 下 操作 : 


> library (DMwR) 
> data(sales) 


而 且 ， 得 到 一 个 名 为 sales 的 数据 框 ， 可 以 用 下 面 的 代码 显示 其 前 几 
行 数据 ， 如 下 所 示 : 


> head(sales) 


ID Prod Quant Val Insp 
vi pi 182 1665 unkn 
v2 pil 3072 8780 unkn 
v3 pi 20393 76990 unkn 
pi 112 1100 unkn 
v3 pi 6164 20260 unkn 
v5 p2 104 1155 unkn 


anh WH 号 
< 
心 


4.2.2 ”探索 数据 集 


为 了 初步 了 解数 据 的 统计 特征 ， 可 以 使 用 函数 summary0 1 ， 代 码 
如 下 : 


> summary(sales) 


ID Prod Quant Val 
v431 : 10159 pii25 : 3923 Min. : 100 Min. : 1005 
v54 : 6017 p3774 : 1824 ist Qu.: 107 1at Qu.: 1345 
v426 : 3902 pl437 : 1720 Median : 168 Median : 2675 
vi679 : 3016 pi917 : 1702 Mean : 8442 Mean : 14617 
vi085 : 3001 p4089 : 1598 3rd Qu.: 738 3rd Qu.: 8680 
v1183 : 2642 p2742 : 1519 Max. 473883883 Max. 74642955 
(Other) :372409 (Other) :388860 NA's : 13842 NA's : 1182 
Insp 
ok : 14462 
unkn :385414 
fraud: 1270 





MARA, BOSE AK SA a SE A a, af DE R 
数 nlevels() 来 确认 这 一 点 : 


> nlevels(sales$ID) 
[1] 6016 
> nlevels(sales$Prod) 


[1] 4548 


函数 summary0O 的 结果 揭示 了 数据 集 的 几 个 事实 。 首 先 ， 在 Quant 列 


和 Val 列 有 大 量 的 缺失 值 。 如 果 在 同一 个 交易 中 这 两 者 缺失 ， 就 会 产生 
比较 严重 的 问题 ， 因 为 这 将 导致 一 条 销售 交易 中 有 关 销 售 量 的 关键 信息 
缺失 。 可 以 很 容易 地 检查 是 否 有 这 种 情况 存在 ， 代 码 如 下 : 











> length(which(is.na(sales$Quant) & is.na(sales$Val))) 


[1] 888 


可 以 看 到 ， 具 有 以 上 问题 交易 的 数量 是 合理 的 。 鉴 于 总 的 交易 数量 
很 大 ， 人 们 可 以 质疑 是 否 可 以 简单 地 删除 这 些 同 时 缺失 Val 和 Quant 列 的 
报告 。 我 们 将 在 4.2.3 节 中 考虑 这 个 问题 和 其 他 的 方法 。 


附带 一 提 ， 特 别 是 对 特大 数据 集 ， 有 更 高 效 的 方式 获取 以 上 信息 。 
在 上 面 的 命令 中 ， 虽 然 看 起 来 使 用 函数 lengthO0 和 函数 whichO 更 容易 理 
解 ， 但 可 以 利用 R 中 的 逻辑 值 表达 式 CT=1, F=0) 更 高 效 地 得 到 上 面 的 
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结 





> sum(is.na(sales$Quant) & is.na(sales$Val)) 


[1] 888 


从 函数 summary0 的 结果 得 到 的 力 一 个 有 趣 的 结论 是 检查 列 的 数据 
分 布 。 实 际 上 ， 正 如 预期 的 那样 ， 欺 诈 行 为 的 比例 相对 较 低 。 即 使 只 考 
虑 那些 已 经 检查 过 的 销售 记录 ， 欺 诈 行 为 的 比例 总 体 而 言 也 是 较 低 的 : 


> table(sales$Insp)/nrow(sales) * 100 


ok unkn fraud 
3.6051712 96.0782359 0.3165930 





图 4-1 显 示 了 每 个 销售 人 员 报 告 的 数量 。 可 以 确认 的 是 ， 所 有 销售 
人 员 的 数据 相当 不 同 。 图 4-2 显 示 了 类 似 的 上 述 数 据 ， 但 是 是 针对 每 个 
产品 的 。 我 们 再 一 次 看 到 了 很 大 的 变动 性 ， 上 述 两 个 图 形 可 以 用 下 面 代 
码 得 到 : 





totS <- table(sales$ID) 

totP <- table(sales$Prod) 

barplot(totg, main = "Transactions per salespeople", names.arg = "", 
xlab = "Salespeople", ylab = "Amount") 

barplot(totP, main = "Transactions per product", names.arg = "", 
xlab = "Products", ylab = "Amount") 
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图 41 每 个 销售 人 员 的 交易 数量 


变量 Quant 和 Val 的 描述 性 统计 量 显示 了 相当 明显 的 变动 性 。 这 表明 
报告 中 的 产品 可 能 有 很 大 的 不 同 ， 因 此 对 不 同 产品 分 别 进 行 处 理 是 有 意 
义 的 。 实 际 上 ， 如 宋 两 个 交易 报告 的 产品 是 相同 的 ， 而 产品 的 标准 价格 
兰 别 太 大 ， 那 么 其 中 的 一 个 交易 报告 只 能 视 为 不 正常 。 不 过 ， 用 这 两 个 
数量 得 出 这 样 的 结论 可 能 不 是 太 理 想 的 根据 。 实 际 上 ， 由 于 每 个 交易 中 
销售 的 产品 数量 不 同 ， 所 以 用 单位 产品 的 价格 来 进行 上 面 的 分 析 可 能 
正确 。 可 以 把 这 个 单位 产品 价格 作为 新 的 一 列 加 入 到 数据 框 中 ， 代 码 如 
T: 











> sales$Uprice <- sales$Val/sales$Quant 
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图 42 每 个 产品 的 交易 数量 








在 交易 中 ， 同 一 产品 的 单位 交易 价格 应 该 是 相对 稳定 的 。 当 分 析 一 
个 较 短 时 期 内 的 交易 时 ， 产 品 的 单位 价格 不 应 该 出 现 巨大 变化 。 


我 们 可 以 用 如 下 代码 来 检查 产品 单位 价格 的 分 布 : 


> summary (sales$Uprice) 


Min. ist Qu. Median Mean 3rd Qu. Max. 
2.4480e-06 8.4600e+00 1.1890e+01 2.0300e+01 1.9110e+01 2.6460e+04 
NA's 


1.4136e+04 


我 们 再 次 看 到 明显 的 变动 性 。 


鉴于 这 些 事实 ， 我 们 不 可 避免 地 要 分 别 对 每 个 产品 的 交易 进行 分 
析 ， 据 此 找 出 每 个 产品 的 可 疑 交 易 。 应 用 这 种 方法 的 一 个 问题 是 部 分 产 
品 只 有 非常 少 的 交易 。 实 际 上 ， 在 4548 种 产品 中 ， 有 982 种 产品 的 交易 
量 小 于 20。 基 于 这 种 小 于 20 的 样本 得 出 一 个 报告 为 不 寻常 报告 有 较 大 的 











检查 最 贵 的 和 最 便宜 的 产品 可 能 是 很 有 趣 的 。 我 们 用 单位 价格 的 中 
位 数 来 代表 已 售 产品 的 标准 价格 。 下 面 代 码 用 于 获取 我 们 所 需要 的 信 
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attach(sales) 
upp <- aggregate(Uprice, list (Prod) ,median,na.rm=T) 
topP <- sapply(c(T,F),function(o) 

upp [order (upp[, 2] ,decreasing=o) [1:5] ,1]) 
colnames(topP) <- c('Expensive','Cheap') 
topP 


M A OO, N N 


Expensive Cheap 
[1,] "p3689" "p560" 
{2,] "p2453" "p559" 
[3,] "p2452"  "p4195" 
[4,] "p2456" "p601" 
[5,] "p2459" "p563" 


我 们 把 数据 框 添加 到 R 中 ， 这 样 便 于 直接 应 用 数据 框 的 列 名 。 我 们 
使 用 aggregate() 函 数 得 到 每 个 产品 的 单位 价格 的 中 位 数 。 函 数 aggreagte() 








把 某 个 产生 数值 的 函数 《聚合 函数 ) 应 用 在 按照 某 些 因子 《或 因子 列 
R) 形成 的 数据 子 组 上 。 其 结果 是 一 个 数据 框 ， 数 据 框 的 值 为 每 个 组 的 
聚合 函数 值 。 从 上 面 获得 的 数据 框 ， 我 们 通过 应 用 函数 sapply0 并 更 改 
男 数 order0 的 参数 decreasing 的 值 ， 得 到 5 个 最 昂贵 “最 便宜 ) 的 产品 。 











我 们 可 以 用 这 5 个 产品 的 单位 价格 的 箱 图 来 确认 它们 完全 不 同 的 价 
格 分 布 : 
> tops <- sales[Prod %in% topP[1, ], c("Prod", "Uprice")] 
> tops$Prod <- factor (tops$Prod) 
> boxplot (Uprice ~ Prod, data = tops, ylab = "Uprice", log = "y") 
运算 符 “%in%” 用 于 测试 一 个 值 是 否 属于 一 个 集合 。 上 面 代码 调用 
函数 factor0 十 分 必要 ， 和 否则 数据 框 topps 的 Prod 列 的 水 平 数 将 和 原始 的 
sales 数 据 框 的 Prod 列 的 水 平 数 相 同 。 这 将 导致 boxplot0 函 数 为 每 个 水 平 
值 绘制 一 个 箱 图 。 最 昂贵 价格 和 最 便宜 价格 的 数据 量 纲 是 相当 不 同 的 。 
为 了 避免 最 便宜 产品 的 数据 变 得 无 关 紧 要 ， 我 们 在 图 形 中 取 了 对 数 。 这 
通过 设置 参数 log=y 来 实现 ， 它 表明 Y 轴 是 原始 数据 的 对 数 〈 注 意 ， 数 轴 
上 的 同一 距离 所 对 应 的 单位 价格 的 不 同 范 围 ) 。 上 述 代 码 的 结果 如 图 4- 
3 所 示 。 








1e+04 


Uprice 
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图 4-3 最 便宜 和 最 昂贵 产品 的 单位 价格 分 布 


可 以 进行 类 似 的 分 析 ， 以 找 出 那些 给 公司 带 来 更 多 CD) 资金 的 销 


> vs <- aggregate(Val,1ist (ID), sunm,na.rm=T) 

> scoresSs <- sapply(c(T,F),function(o) 

+ vs [order (vs$x,decreasing=o) [1:5] ,1]) 
> colnames(scoresSs) <- c('Most','Least') 

> scoresSs 


Most Least 
[1,] "v431" "v3355" 
{2,] "v54" "y6069" 


[3,] "v19" "v5876" 
[4,] "v4520" "v6058" 
[5,] “v955" "v4515" 


有 趣 的 是 ， 上 和 面 列表 中 给 公司 带 来 更 多 资金 的 前 100 名 销售 人 员 的 
资金 收入 几乎 占 公 司 资金 收入 的 40%， 而 在 6016 名 销售 人 员 中 ， 底 部 
2000 人 的 总 收入 不 足 公 司 总 收入 的 2%。 这 可 能 给 出 某 些 提示 ， 说 明 该 
公司 需要 进行 内 部 改革 。 

> sum(vs[order(vs$x, decreasing = T)[1:100], 2])/sum(Val, na.rm = T) * 

+ 100 

[1] 38.33277 


> sum(vsforder(vs$x, decreasing = F)[1:2000], 2])/sum(Val, 
+ na.rm = T) * 100 


[1] 1.988716 


如 果 我 们 对 每 个 产品 所 销售 的 数量 进行 类 似 的 分 析 ， 结 果 更 加 不 平 
衡 : 


qs <- aggregate (Quant, list (Prod) ,sum,na.rm=T) 
scoresPs <- sapply(c(T,F),function(o) 
qs [order (qs$x, decreasing=o) [1:5],1]) 
colnames(scoresPs) <- c('Most','Least') 
scoresPs 
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Most Least 

[1,] "p2516" "p2442" 

[2,] "p3599" "p2443" 

[3,] "p314", "p1653" 

[4,] "p569" "p4101" 

[5,] "p319" "p3678" 

> sum(as.double (qs [order (qs$x, decreasing=T) {1:100],2]))/ 
+  sum(as.double(Quant),na.rm=T)*100 


[1] 74.63478 


> sum(as.double(qs [order (gs$x,decreasing=F) [1:4000] ,2]))/ 
+  sum(as.double (Quant) ,na.rm=T)*100 


[1] 8.94468 





你 可 能 已 经 注意 到 上 面 的 代码 使 用 了 as.double0 函 数 。 这 种 情况 
下 ，sum0 函 数 产 生 的 数目 太 大 ， 必 须 用 double 类 型 来 存储 。 因 此 ， 应 用 
函数 as.double0O 能 确保 这 种 类 型 转换 。 


在 4548 个 产品 中 ， 其 中 4000 个 产品 代表 了 少 于 10% 的 销量 ， 而 销量 
最 高 的 100 个 产品 占 了 近 75% 的 销量 。 这 个 信息 对 产品 的 生产 十 分 有 
用 。 特 别 地 ， 它 并 不 意味 着 公司 应 该 停止 生产 销售 量 较 少 的 产品 。 事 实 
上 ， 如 果 这 些 产品 有 更 高 的 边际 利润 ， 就 会 更 有 利 可 图 。 由 于 我 们 没有 
关于 产品 制造 成 本 的 任何 信息 ， 所 以 无 法 得 出 是 否 继续 生产 销量 小 的 产 














品 的 任何 结论 。 





我 们 为 了 发 现 异常 交易 报告 ， 做 出 的 主要 假设 之 一 是 ， 所 有 产品 的 
单位 价格 都 齐 循 一 个 接近 正 态 的 分 布 。 这 意味 着 ， 我 们 预期 的 同一 产品 
的 单位 价格 大 致 相同 ， 它 们 之 间 小 的 变化 可 能 是 由 于 销售 人 员 为 了 达到 
他 们 的 商业 目标 而 采取 的 策略 。 在 这 种 假设 下 ， 有 一 些 基 本 的 统计 检验 
技术 来 帮助 我 们 发 现价 格 是 否 侦 离 正 态 假设 。 其 中 一 个 方法 是 基于 箱 图 
规则 。 在 本 书 中 ， 我 们 已 经 多 次 看 到 用 箱 图 来 侦 测 离 群 值 。 箱 图 规则 的 
定义 是 : 如 果 一 个 观测 值 高 于 上 须 ( 或 者 低 于 下 须 ) ， 则 将 观测 值 标记 
为 异常 高 〈 低 ) 。 上 须 的 定义 是 Q3 +1.5xIQR (下 须 的 定义 为 Qj 
-1.5xIQR) ， 其 中 Qi 是 第 一 个 四 分 位 数 ，Qs 是 第 三 个 四 分 位 数 ，IQR 
古 四 分 位 距 ， 其 定义 为 IJQR=〈Qa -Qi ) 。 这 个 简单 的 规则 对 正 态 分 布 
的 变量 很 有 效 。 由 于 它 是 基于 四 分 位 数 这 一 稳健 的 统计 量 ， 所 以 在 有 少 
数 离 群 值 时 该 规则 是 稳健 的 。 下 面 的 代码 可 以 《根据 上 述 定义 ) 确定 每 
ANP at HR AB ELT BL 

















> out <- tapply(Uprice,list(Prod=Prod), 

+ function(x) length(boxplot.stats(x)$out)) 

acs stats() 可 以 获得 某 些 用 于 绘制 箱 图 的 统计 量 。 它 返回 舍 
有 这 些 信 息 的 一 个 列表 。 列 表 的 out 元 素 包 含 了 根据 箱 图 规则 被 视 为 离 
群 值 的 观测 值 。 上 面 的 代码 计算 了 每 个 产品 交易 中 含有 的 离 群 值 数 量 。 
含有 较 多 离 群 值 的 产品 如 下 所 示 : 

















> out[order(out, decreasing = T){[1:10]] 


Prod 


pi125 p1437 p2273 p1917 p1918 p4089 p538 p3774 p2742 p3338 
376 181 165 156 156 137 129 125 120 117 


应 用 这 个 简单 方法 ， 找 到 29446 个 被 认为 是 离 群 值 的 交易 ， 这 相当 
于 总 交易 数量 的 7%。 

> sum(out) 

[1] 29446 

> sum(out)/nrow(sales) * 100 

[1] 7.34047 

也 许 读 者 会 怀疑 这 个 简单 的 确定 离 群 值 的 规则 是 个 能 充分 提供 这 个 
案例 中 所 需要 的 帮助 。4.4.1.1 节 将 对 这 个 规则 稍 加 修改 以 适应 我 们 的 应 
用 ， 并 评估 其 性 能 。 





需要 注意 本 节 中 得 出 的 菜 些 结论 。 我 们 使 用 的 数据 独立 于 下 面 的 事 
SE: 有 些 报告 发 现 有 欺诈 ， 而 其 他 的 报告 可 能 也 有 欺诈 ， 只 是 没有 探测 
到 。 这 意味 看 有 些 错误 数据 可 能 导致 我 们 的 某 些 结论 是 有 偏差 的 。 这 里 
的 问题 是 ， 对 那些 标记 为 有 欺诈 的 报告 ， 我 们 不 知道 真 的 是 否 有 欺诈 。 
理论 上 ， 我 们 肯定 正确 的 交易 是 那些 在 列 Insp 取 值 为 OK 的 报告 ， 然 而 这 
些 报告 只 占 总 交易 量 的 3.6%。 上 所 以 ， 尽 管 分 析 是 正确 的 ， 但 结果 可 能 受 
低 质 量 的 数据 影响 。 这 在 现实 问题 中 应 该 考虑 到 ， 不 要 基于 包含 错误 的 














数据 来 给 公司 提供 建议 。 然 而 完整 检查 数据 是 不 可 能 的 ， 因 此 这 种 风险 
忆 是 会 存在 的 。 至 多 我 们 在 探索 性 分 析 数 据 时 避免 使 用 已 经 友 现 包含 错 
误 的 较 少 的 交易 数据 。 另 一 个 可 以 做 的 事情 就 是 把 结果 呈现 给 公司 ， 如 
果 他 们 认为 某 些 分 析 结 果 是 非 期 望 的 ， 可 以 对 这 些 导致 惊奇 结果 的 数据 
进行 更 细致 的 分 析 。 这 意味 厦 这 种 分 析 通 币 需 要 与 领域 专家 以 茶 种 形式 
进行 沟通 ， 特 别 是 像 本 案例 中 这 样 怀疑 数据 的 质量 时 。 此 外 ， 这 种 类 型 
的 探索 性 分 析 对 低 质量 的 数据 尤其 重要 ， 因 为 许多 问题 可 以 容易 地 在 这 
个 阶段 发 现 。 














[1] 可 以 用 R 添 加 包 Hmisc 中 的 函数 desctribe0 来 得 到 类 似 的 有 趣 结果 ， 贸 给 
读者 自己 练习 。 


4.2.3 数据 问题 





数据 质量 问题 可 能 会 给 应 用 本 章 后 面 技术 带 来 一 些 障 碍 ， 本 节 将 介 
绍 一 些 数据 质量 问题 。 


4.2.3.1 REE 


我 们 从 处 理 缺 失 值 这 一 问题 开始 。 在 2.5 节 中 提 到 ， 基 本 上 有 3 个 选 
择 : 1) 剔除 这 些 个 案 ，2) 用 茶 些 策略 来 填补 缺失 数据 ，3) 运用 可 以 
处 理 缺 失 值 的 工具 。 考 虑 到 本 章 将 要 用 到 的 工具 ， 只 有 前 两 个 选择 对 我 
们 是 有 效 的 。 





前 面 提 到 过 ， 主 要 的 问题 是 变量 Quant 和 变量 Val 都 有 数据 缺失 的 交 
易 。 如 果 移 除 所 有 的 888 个 个 案 将 导致 吻 除 某 些 产品 或 销售 人 员 的 大 部 
分 交易 ， 这 时 候 全 部 剔除 888 个 个 案 是 有 问题 的 。 下 面 ， 我 们 检查 这 种 
情况 是 否 会 发 生 。 








每 个 销售 人 员 和 产品 的 交易 数量 由 下 面 的 代码 给 出 : 


> totS <- table(ID) 
> totP <- table(Prod) 








可 以 用 下 面 的 代码 显示 与 存在 问题 的 交易 相关 的 销售 人 员 和 产品 : 


> nas <- sales[which(is.na(Quant) 上 is.na(Val)), c("ID", “Prod")] 


下 面 给 出 变量 Quant 和 变量 Val 同 时 有 缺失 值 的 交易 占 很 大 比例 的 销 
售 人 


了 J 


> propS <- 100 * table(nas$ID)/totS 
> propS[order(propS, decreasing = T)[1:10]] 


v1237 v4254 v4038 v5248 v3666 v4433 v4170 
13.793103 9.523810 8.333333 8.333333 6.666667 6.250000 5.555556 
v4926 v4664 v4642 
5.555556 5.494505 4.761905 








至 少 从 销售 人 员 方 面 来 看 ， 直 接 剔 除 这 些 同 时 在 两 个 变量 有 缺失 值 
的 交易 是 合理 的 ， 因 为 它们 只 代 表 了 很 小 的 一 部 分 交易 。 为 外 ， 试 图 同 
时 填补 那 两 列 似乎 更 为 冒险 。 








从 产品 方面 来 看 ， 应 用 下 面 的 代码 得 到 同时 在 两 个 变量 都 有 缺失 值 
的 交易 占 较 大 的 比例 的 产品 : 
> propP <- 100 * table(nas$Prod)/totP 
> propP[order(propP, decreasing = T){1:10]] 
p2689 p2675 p4061 p2780 p4351 p2686 p2707 p2690 
39.28571 35.41667 25.00000 22.72727 18.18182 16.66667 14.28571 14.08451 


p2691 p2670 
12.90323 12.76596 


多 个 产品 将 被 删除 的 交易 超过 20%: 特别 是 产品 p2689 将 有 近 40% 的 


交易 被 删除 。 这 看 起 来 太 多 了 。 必 一 方面 ， 如 果 我 们 决定 填补 那些 缺失 
值 ， 那 么 唯一 合理 的 集 略 是 使 用 相同 产品 的 具有 “完全 ”信息 的 交易 。 这 





意味 着 运用 该 产品 剩余 60% 的 交易 信息 去 填补 该 产品 40% 的 交易 信息 。 
这 看 起 来 也 是 不 合理 的 。 池 运 的 是 ， 如 果 我 们 看 看 产品 的 单位 价格 分 布 
之 间 的 相似 性 《〈 详 见 4.2.3.2 节 ) ， 那 么 我 们 实际 上 可 以 观察 到 这 些 产 品 
和 其 他 产品 相当 类 似 。 这 种 情况 下 ， 我 们 可 以 得 到 如 下 结论 : MRAR 
有 缺失 数据 的 交易 后 只 有 少量 的 交易 ， 那 么 我 们 就 可 以 和 类 似 产品 的 区 
易 相 结合 以 增加 离 群 值 检测 的 统计 可 靠 性 。 总 之 ， 剔 除 所 有 同时 在 数量 
和 价格 上 有 缺失 值 的 交易 是 最 好 的 选择 : 














> detach(sales) 
> sales <- sales[-which(is.na(sales$Quant) & is.na(sales$Val)),] 





RITH detach() RAOR LE BE EAE So JE Ze HET 
attach(O) 函 数 的 工作 方式 。 当 调用 函数 attach (sales) 时 ，R 复 制 sales 数 据 
框 的 每 一 列 ， 为 每 一 列 建立 一 个 新 对 象 。 如 果 从 sales 数 据 框 删除 数据 ， 
那么 这 些 变化 不 会 反映 在 这 些 新 对 象 中 。 总 的 来 说 ， 当 要 查询 的 数据 容 
易 发 生 改变 时 ， 不 应 该 使 用 attachO 函 数 提供 的 便利 ;和 否则， 我 们 可 能 会 
得 到 不 一 致 的 数据 视图 : 原始 数据 框 的 数据 视图 和 函数 attachO 所 创建 对 
象 的 视图 。 后 者 是 在 一 定时 间 内 的 原始 数据 框 的 “快照 ?如 果 在 调用 函 
数 attach0) 后 我 们 修改 了 数据 框 ， 那 么 这 个 “快照 ”就 过 时 了 。 





现在 让 我 们 分 析 剩 余 的 在 数量 或 者 价格 变量 上 有 缺失 值 的 交易 。 我 
们 从 计算 每 一 种 产品 在 数量 上 有 缺失 值 的 交易 比 开始 : 





> nnasQp <- tapply(sales$Quant, list (sales$Prod), 
+ function(x) sum(is.na(x))) 

> propNAsQp <- nnasQp/table(sales$Prod) 

> propNAsQp [order (propNAsQp, decreasing=T) [1:10]] 


p2442 p2443 p1653 p4101 p4243 p903 p3678 

1.0000000 1.0000000 0.9090909 0.8571429 0.6842105 0.6666667 0.6666667 
p3955 p4464 pi261 

0.6428571 0.6363636 0.6333333 








p2442 和 p2443 两 个 产品 所 有 的 交易 数量 是 缺失 的 。 因 为 我 们 无 法 计 
算 其 标准 单价 ， 所 以 没有 进一步 的 信息 ， 用 这 些 产 品 的 交易 信息 不 可 能 
进行 任何 分 析 。 它 们 一 共有 54 份 报告 ， 其 中 两 份 标记 为 欺诈 ， 而 其 他 的 
标记 为 "OK”。 这 意味 者 ， 或 者 检查 员 和 营 握 了 比 这 个 数据 集 更 多 的 信 
恩 ， 或 者 我 们 得 到 的 数据 有 输入 错误 ， 因 为 从 这 些 交 易 中 似 乎 不 可 能 得 
到 任何 结论 。 基 于 此 ， 我 们 将 删除 这 些 交 易 报告 : 


> sales <- sales[{!sales$Prod %in% c("p2442", "p2443"), ] 


由 于 我 们 从 数据 集中 删除 了 两 种 产品 ， 所 以 我 们 应 该 更 新 列 Prod 的 
水 平 : 


> nlevels(sales$Prod) 
[1] 4548 


> sales$Prod <- factor(sales$Prod) 
> nlevels(sales$Prod) 


[1] 4546 





是 否 有 销售 人 员 的 所 有 交易 数量 为 缺失 值 ? 


> nnasQs <- tapply(sales$Quant, list(sales$ID), function(x) sum(is.na(x))) 
> propNAsQs <- nnasQs/table(sales$ID) 
> propNAsQs [order (propNAsQs, decreasing = T)[1:10]] 


v2925 v5537 v5836 v6058 v6065 v4368 v2923 
1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 0.8888889 0.8750000 
v2970 v4910 v4542 
0.8571429 0.8333333 0.8095238 





从 上 面 结果 可 以 看 到 ， 有 几 个 销售 人 员 没 有 在 报告 中 填写 交易 的 数 
量 信 息 。 然 而 ， 这 种 情况 下 ， 问 题 没 有 那么 严重 。 实 际 上 ， 应 用 单位 价 
格 应 该 类 似 的 假设 ， 只 要 我 们 有 其 他 销售 人 员 报 告 的 相同 产品 的 交易 ， 
我 们 就 可 以 尝试 使 用 此 信息 来 填补 那些 缺失 值 。 正 因为 如 此 ， 我 们 将 不 
会 删除 这 些 交易 。 


现在 我 们 将 对 交易 的 Val 列 的 缺失 值 进行 类 似 的 分 析 。 首 先 ， 每 种 
产品 在 该 列 有 缺失 值 的 交易 所 占 的 比例 为 : 


> nnasVp <- tapply(sales$Val, list (sales$Prod), 

+ function(x) sum(is.na(x))) 

> propNAsVp <- nnasVp/table(sales$Prod) 

> propNAsVp [order (propNAsVp, decreasing=T) [1:10]] 


p1110 p1022 p4491 p1462 p80 p4307 
0.25000000 0.17647059 0.10000000 0.07500000 0.06250000 0.05882353 
p4471 p2821 p1017 p4287 


0.05882353 0.05389222 0.05263158 0.05263158 





这 些 数字 是 合理 的 ， 因 此 删除 这 些 交 易 是 没有 意义 的 。 我 们 将 用 其 
他 的 交易 来 填补 这 些 缺 失 值 。 从 销售 人 员 方 面 ， 计 算 这 些 数 字 的 方法 如 





> nnasVs <- tapply(sales$Val, list(sales$ID), function(x) sum(is.na(x))) 
> propNAsVs <- nnasVs/table(sales$ID) 
> propNAsVs[order(propNAsVs, decreasing = T)[1:10]] 


v5647 v74 v5946 v5290 v4472 v4022 
0.37500000 0.22222222 0.20000000 0.15384615 0.12500000 0.09756098 
v975 v2814 v2892 v3739 


0.09574468 0.09090909 0.09090909 0.08333333 
同样 ， 这 个 比例 不 是 太 高 。 


在 这 个 阶段 中 ， 我 们 已 经 删除 了 所 有 没有 足够 信息 来 填补 缺失 值 的 
报告 。 对 剩余 的 缺失 值 ， 基 于 同一 个 产品 的 交易 单位 价格 相似 的 假设 ， 
我 们 将 应 用 茶 个 方法 进行 缺失 值 填补 。 我 们 将 首先 获得 每 一 个 产品 的 标 
准 单 价 。 计 算 标 准 价格 时 ， 我 们 将 跳 过 标记 为 欺诈 的 交易 价格 。 对 剩余 
的 交易 ， 我 们 将 使 用 每 个 产品 单位 价格 的 中 位 数 作为 相应 产品 的 标准 价 
格 : 














> tPrice <- tapply(sales[sales$Insp != "fraud", "Uprice"], 
+ list(sales[{sales$Insp != "fraud", "Prod"]), median, na.rm = T) 





因为 我 们 目前 没有 交易 同时 在 这 两 个 变量 上 有 缺失 值 ， 所 以 每 一 个 
产品 有 了 一 个 标准 单价 后 ， 我 们 束 可 以 用 它 来 计算 两 个 可 能 的 缺失 值 
CQuant 和 Val) 。 下 面 的 代码 将 填补 所 有 剩余 的 缺失 值 : 


> noQuant <- which(is.na(sales$Quant) ) 

> sales [noQuant,'Quant'] <- ceiling(sales[noQuant,'Val'] / 

+ tPrice [sales [noQuant ,'Prod']]) 
> noVal <- which(is.na(sales$Val)) 

> sales[noVal,'Val'] <- sales{noVal,'Quant'] * 

+ tPrice [sales [noVal,'Prod']] 


我 们 填补 了 12900 个 未 知 的 数量 值 ， 并 填补 了 294 个 交易 总 价值 。 如 
末 你 像 我 一 样 ， 我 相信 你 也 会 欣赏 上 面 这 些 完 成 所 有 操作 的 精简 代码 。 
它 用 的 都 是 索引 方法 ! 我 们 使 用 ceiling0 函 数 来 避免 Quant 的 非 整 数值 。 
这 个 函数 返回 不 小 于 参数 中 数值 的 最 小 整数 。 


鉴于 我 们 现在 有 了 Quant 和 Val 的 所 有 值 ， 我 们 就 可 以 重新 计算 
Uprice 列 的 值 来 填充 先前 未 知 的 单位 价格 : 








> sales$Uprice <- sales$Val/sales$Quant 


经 过 所 有 这 些 预 处 理 步骤 后 ， 有 一 个 没有 任何 缺失 值 的 数据 集 。 为 
了 进一步 的 分 析 ， 保 存 当 前 的 sales 数 据 框 ， 这 样 可 以 从 这 个 数据 框 来 进 
行 下 面 的 分 机， 而 不 必 再 重复 前 面 的 所 有 步骤 。 可 以 如 下 保存 数据 集 : 





> save(sales, file = "salesClean.Rdata") 


函数 save0 可 以 把 任何 对 象 保 存在 参数 fle 指 定 的 文件 中 。 在 4.2.1 节 
中 提 到 过 ， 这 些 文件 保存 的 对 象 可 以 通过 load() 函 数 载 入 到 R 中 。 


4.2.3.2 ”只 有 少量 交易 的 产品 











有 些 产品 只 有 极 少 的 交易 。 因 为 需要 用 这 些 交 易 的 信息 来 确定 交易 
中 是 否 有 寞 第 ， 所 以 这 是 一 个 问题 。 如 果 有 太 少 的 交易 ， 在 要 求 的 统计 
车 性 下 很 难 做 出 决定 。 这 种 情况 下 ， 考 虑 是 侍 可 以 和 一 些 产 品 的 交易 
一 起 分 析 来 避免 这 个 问题 。 





管 完 全 缺乏 产品 之 间 关 系 的 信息 ， 但 可 以 尝试 通过 观察 产品 单价 
分 布 之 间 的 相似 性 来 推断 其 中 的 一 些 天 系 。 如 果 我 们 发 现 具有 类 似 价 格 
的 产品 ， 那 么 我 们 可 以 考虑 合并 它们 相应 的 交易 并 对 它们 一 起 进行 分 
析 ， 从 而 寻找 异 第 值 。 比 较 两 个 分 布 的 一 种 方法 是 可 视 化 检 醋 法 。 鉴 于 
产品 的 数量 ， 这 是 不 可 行 的 。 另 一 种 方法 是 比较 总 结 分 布 的 一 些 统计 特 
性 。 连 续 变 量 分 布 的 两 个 重要 属性 是 集中 趋势 和 离散 指标 。 如 前 所 述 
假设 任何 产品 的 单位 价格 分 布 大 约 为 正 态 是 合理 的 。 这 意味 着 虽然 价格 
存在 变化 性 ， 但 它们 应 该 很 好 地 分 布 在 常见 价格 的 周围 。 但 是 ， 这 里 也 
假设 有 离 群 值 的 出 现 ， 它 们 可 能 是 由 于 欺诈 企图 或 错误 造成 的 。 这 里 使 
用 中 位 数 作为 衡量 中 心 的 统计 量 ， 应 用 四 分 位 距 〈IQR) 作为 离散 指标 
的 统计 量 更 有 意义 。 与 更 常用 的 均值 和 标准 差 相 比 ， 这 些 统计 量 在 有 离 
群 值 存在 时 更 加 稳健 。 计 算 每 种 产品 所 有 交易 的 这 两 个 统计 量 的 代码 如 
te 











> attach(sales) 
> notF <- which(Insp != 'fraud') 
> ms <- tapply(Uprice{notF] , list (Prod=Prod{notF]),function(x) { 


+ bp <- boxplot.stats(x)$stats 
+ c(median=bp[3] , iqgr=bp[4] -bp[2]) 
$ }) 
> ms <- matrix(unlist(ms), 
+ length (ms) ,2， 
十 byrow=T, dimnames=list (names (ms) ,c('median' ,'igr'))) 
> head(ms) 
median iqr 


pl 11.346154 8.575599 
p2 10.877863 5.609731 


p3 10.000000 4.809092 

p4 9.911243 5.998530 

p5 10.957447 7.136601 

p6 13.223684 6.685185 

上 面 代 码 使 用 函数 boxplot.stats() 获 得 中 位 数 、 第 一 个 四 分 位 数 和 第 

三 个 四 分 位 数 。 对 每 个 产品 的 所 有 交易 ， 计 算 这 些 统计 量 ， 从 分 析 中 吻 
除 有 欺诈 的 交易 。 有 了 这 些 统计 量 后 ， 得 到 含有 每 个 产品 的 中 位 数 和 四 
分 位 距 的 一 个 矩阵 。 











图 4-4a 是 根据 每 个 产品 的 中 位 数 和 IQR〔 四 分 位 距 〉 绘制 的 图 形 。 
因为 有 几 个 产品 在 这 些 统计 量 上 有 很 大 的 值 ， 所 以 图 4-4 很 难 阅读 。 特 
别 是 ， 产 品 p3689 (在 右上 角 的 点 ) 明显 地 与 该 公司 的 其 他 产品 不 同 。 
通过 使 用 对 数 尺度 来 元 服 这 个 可 视 化 的 问题 (图 4-40，〉。 在 图 4-4b 中 ， 
使 用 黑色 的 “+” 标 志 ， 表 明 该 产品 的 交易 数 少 于 20。 绘 制图 4-4 的 代码 如 

下 ， 其 中 参数 log=xy 用 来 设置 图 形 的 两 个 数 轴 的 标 度 为 对 数 标 度 








> par(mfrow = c(1, 2)) 

> plot(ms[, 1], ms[, 2], xlab = "Median", ylab 
> plot(ms[, 1], ms[, 2], xlab = 

ee col = "grey", log u Wey") 

> smalls <- which(table(Prod) < 20) 

> points(log(ms[smalls, 1]), log(ms[smalls, 2]), pch = "+") 


= "IQR", main 
"Median", ylab = "IQR", main P 
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图 4-4 单位 价格 分 布 的 某 些 特征 


在 图 4-4b 中 ， 第 一 个 注意 到 的 是 ， 许 多 产品 的 中 位 数 和 IQR 大 致 相 
同 ， 即 使 是 对 数 标 度 。 这 提供 了 单价 分 布 相似 性 的 一 个 很 好 证 据 。 此 
外 ， 我 们 可 以 看 到 ， 那 些 有 少数 交易 的 产品 中 有 很 多 和 其 他 产品 非常 类 
似 。 然 而 ， 也 有 几 种 产品 ， 它 们 不 仪 有 很 少 的 交易 ， 它 们 的 单位 价格 分 
布 也 相当 不 同 。 显 然 我 们 很 难 判 断 这 些 产品 是 售 为 欺诈 交易 。 


尽管 可 视 化 检查 单位 价格 的 分 布 特征 有 以 上 的 优点 ， 但 是 当 比 较 两 
种 产品 的 分 布 时 ， 还 需要 有 正式 的 检验 以 获取 更 高 的 精确 度 。 因 为 非 参 


数 检验 对 有 离 群 值 的 数据 更 稳健 ， 我 们 将 使 用 这 类 检验 来 比较 单位 价格 
的 分 布 。Kolmogorov-Smirnov 检 验 可 以 用 来 比较 任何 两 个 样本 ， 以 检查 
两 者 都 来 自 相 同 分 布 的 原 假 设 的 有 效 性 。 这 个 检验 通过 计算 两 者 累计 经 
验 分 布 函数 差 值 的 最 大 值 这 个 统计 量 来 进行 。 如 果 两 个 分 布 类 似 ， 那 么 
这 个 最 大 距离 应 该 很 小 。 


























对 于 交易 数量 少 于 20 的 产品 ， 我 们 将 寻找 与 它 的 单位 价格 分 布 最 相 
似 的 产品 ， 然 后 用 Kolmogorov-Smirnov 检 验 来 检查 两 个 产品 是 否 在 统计 
意义 上 相似 。 对 所 有 的 产品 组 合 进行 这 个 检查 ， 计 算 将 会 变 得 过 于 复 
杂 。 我 们 决定 采用 前 面 计算 过 的 分 布 特征 〈 中 位 数 和 IQR) 。 也 就 是 
说 ， 对 于 每 一 个 交易 数量 较 少 的 产品 ， 我 们 寻找 与 该 产品 有 相似 中 位 数 
和 IQR 的 产品 。 对 于 这 种 类 似 的 产品 ， 都 进行 了 各 自 的 单价 分 布 之 间 的 
Kolmogorov-Smirnov 检 验 。 下 面 的 代码 用 来 获取 一 个 矩阵 〈similar) ， 
算 阵 中 存储 的 是 这 种 少 于 20 个 交易 的 每 个 产品 的 检验 信息 。 它 用 对 象 ms 
来 保存 前 面 获得 的 每 个 产品 的 单位 价格 的 中 位 数 和 IQR。 

















> dms <- scale(ms) 
> smalls <- which(table(Prod) < 20) 
> prods <- tapply(sales$Uprice, sales$Prod, list) 
> similar <- matrix(NA, length(smalls), 7, dimnames = list (names (smalls), 
+ c("Simil", "ks.stat", "ks.p", "medP", "iqrP", "medS", 
"“igqrS"))) 
for (i in seq(along = smalls)) { 
d <- scale(dms, dms[smalls{i], ], FALSE) 
d <- sqrt(drop(d°2 %*% rep(1, ncol(d)))) 
stat <- ks.test(prods[{smalls[iJ]], prods[forder(d) [2]]]) 
similar[i, ] <- c(order(d)[2], stat$statistic, stat$p.value, 
ms[smalls[i], ], msf{order(d){2], ]) 


+ 二 十 十 十 二 V+ 


上 面 代码 首先 对 对 象 ms 的 数据 进行 标准 化 ， 避 免 计算 距离 时 负 值 的 
影响 。 在 初始 化 后 ， 主 循环 对 每 一 个 有 少数 交易 的 所 有 产品 进行 循环 ， 
循环 的 前 两 个 命令 计算 所 分 析 产 品 的 分 布 特性 和 所 有 其 他 产品 之 间 的 距 
离 《i 的 当前 值 ) 。 产 生 的 结果 对 象 〈d) 含有 这 些 距 离 值 。 第 二 个 最 小 
距离 对 应 的 产品 是 与 正在 考虑 的 产品 最 类 似 的 产品 。 这 里 是 第 二 最 小 距 
离 ， 因 为 第 一 最 小 距离 是 产品 本 映 。 我 们 再 次 注意 到 ， 使 用 产品 单位 价 
格 的 中 位 数 和 IQR 信 息 来 计算 产品 之 间 的 相似 性 。 下 一 步 是 进行 
Kolmogorov-Smirnov 检 验 ， 来 比较 两 个 单位 价格 的 分 布 。 这 里 调用 函数 
ks.test()。 这 个 函数 返回 显著 性 信息 ， 其 中 “提取 ”了 检验 的 统计 量 值 和 各 
目的 显著 性 水 平 。 统 计量 取 值 是 两 个 累积 经 验 分 布 函数 差 值 的 最 大 值 。 
接近 1 的 置信 度 水 平 值 表 示 有 很 强 的 统计 证 据 表 明 两 个 分 布 相 等 这 一 原 
假设 是 正确 的 。 下 面 我 们 给 出 结果 窍 阵 similar 对 象 的 前 几 行 : 

















> head(similar) 


Simil ks.stat ks.p medP iqrP medS iqrS 
p8 2827 0.4339623 0.06470603 3.850211 0.7282168 3.868306 0.7938557 
pis 213 0.2568922 0.25815859 5.187266 8.0359968 5.274884 7.8894149 
p38 1044 0.3650794 0.11308315 5.490758 6.4162095 5.651818 6.3248073 
p39 1540 0.2258065 0.70914769 7.986486 1.6425959 8.080694 1.7668724 
p40 3971 0.3333333 0.13892028 9.674797 1.6104511 9.668854 1.6520147 
p47 1387 0.3125000 0.48540576 2.504092 2.5625835 2.413498 2.6402087 





行 名 称 表明 在 为 其 寻找 最 相似 的 产品 。 第 一 列 有 它 最 相似 产品 的 信 
息 。 可 以 用 下 面 代码 得 到 和 矩阵 similar 前 面 几 行 相应 产品 的 ID: 








> levels(Prod) [similar{1, i]] 
[1] "p2829" 


在 Kolmogorov-Smirnov 统 计量 和 置信 度 水 平 列 之 后 ， 我 们 有 产品 的 
中 位 数 、IQR 和 最 相似 产品 。 在 90% 显 著 性 水 平 下 ， 我 们 可 以 检查 单位 
价格 分 布 有 相似 性 的 产品 的 数量 : 


> nrow(similar[similar[, "ks.p"] >= 0.9, ]) 


ELE 117 





或 者 ， 更 有 效率 的 方式 ， 


> sum(similar[, "ks.p"] >= 0.9) 
[1] 117 


正如 你 从 少 于 20 个 交易 的 985 个 产品 中 所 看 到 的 ， 我 们 只 能 为 其 中 
的 117 个 产品 找到 类 似 的 产品 。 不 过 ， 当 分 析 哪 些 交 易 是 不 正常 交易 
时 ， 这 些 都 是 有 用 的 信息 。 对 于 这 117 个 产品 ， 我 们 可 以 把 更 多 的 交易 
纳入 决策 过 程 中 ， 从 而 提高 检验 的 统计 显著 性 水 平 。 我 们 保存 了 similar 
对 象 ， 以 后 需要 产品 之 间 的 这 种 相似 性 时 可 以 直接 使 用 该 对 象 : 





> save(similar, file = "similarProducts.Rdata") 


4.3 ”定义 数据 挖掘 任务 


有 些 交 易 报 告 被 强烈 怀疑 为 欺诈 交易 ， 这 个 应 用 程序 的 主要 目的 是 
运用 数据 挖掘 工具 ， 为 确定 是 否 核查 这 些 交 易 提供 指导 。 由 于 可 用 于 该 
检查 任务 的 资源 是 有 限 的 并 且 是 变化 的 ， 因 此 这 个 指导 应 该 以 欺诈 概率 
排序 的 形式 给 出 。 


4.3.1 问题 的 不 同 解决 方法 


数据 集 有 一 列 〈Insp) 含有 先前 检验 活动 的 信息 。 这 里 的 主要 问题 
是 大 多 数 可 用 的 报告 没有 被 检验 。 从 确定 己 有 报告 是 否 为 欺诈 的 任务 角 
度 来 看 ， 变 量 Insp 中 的 unkn 值 和 缺失 值 的 意义 是 一 样 的 。 这 个 值 代表 和 缺 
少 这 笔 交 易 是 OK 还 是 欺诈 的 信息 。 也 就 是 次， 我 们 的 数据 集 有 两 种 类 
型 的 观测 值 。 我 们 有 一 个 较 小 的 数据 集 ， 其 中 的 数据 有 标记 ， 它 有 交易 
的 特征 描述 和 检验 的 结果 。 为 外 一 个 较 大 的 数据 集 是 没有 标记 的 ， 它 们 
没有 被 检验 ， 列 Insp 的 值 为 nkn。 在 这 种 情况 下 ， 取 决 于 用 于 建 模 的 观 
测 值 的 类 型 ， 我 们 有 不 同 的 建 模 方 法 。 








4.3.1.1 无 监督 技术 


对 于 未 被 检验 的 报告 ，Insp 列 没有 任何 信息 ， 所 以 它 对 分 析 没 有 影 
啊 。 对 于 这 些 观 测 值 ， 我 们 只 有 对 交易 的 描述 。 这 意味 独 这 些 销售 报告 














仅仅 有 描述 它 的 目 变 量 。 这 种 类 型 的 数据 适用 于 非 监督 学 习 技 术 。 这 些 
方法 被 这 么 命名 是 因为 它们 的 目标 不 是 像 有 监督 的 方法 那样 在 “老师 ”的 
监督 下 学 习 概 念 。 有 监督 方法 应 用 的 数据 就 是 它们 所 学 习 概 念 的 例子 

(例如 ， 欺 诈 或 者 正常 交易 的 概念 ) 。 这 就 要 求 领域 专家 预先 就 目标 概 
念 对 数据 进行 分 类 。 而 检验 结果 未 知 的 报告 则 不 适用 于 这 种 情况 。 因 此 
我 们 面临 的 不 是 预测 任务 〈 即 有 监督 方法 的 目标 ，， 而 是 一 个 描述 性 的 
数据 挖掘 任务 。 








聚 类 分 析 是 描述 性 数据 挖掘 的 一 个 例子 。 聚 类 方法 试图 对 一 组 观测 
值 形成 多 个 肾 类 ， 一 个 聚 类 内 的 个 案 相似 ， 从 而 找到 这 些 观测 值 的 “ 自 
然 ” 组 别 。 相 似 性 概念 通常 要 求 由 描述 观测 值 的 变量 所 定义 的 空间 给 出 
一 个 距离 定义 。 这 个 距离 定义 是 衡量 一 个 观测 值 和 其 他 观测 值 之 间距 离 
的 函数 。 距 离 靠近 的 个 案 通 种 认为 属于 同一 个 上 自然 组 。 








常 值 检测 也 可 以 看 做 是 摘 述 性 的 数据 挖掘 任务 。 有 些 寞 第 值 或 
称 为 离 群 值 ) 检测 方法 假定 数据 的 预期 分 布 ， 把 背离 这 一 分 布 的 任何 值 
标记 为 异常 值 。 为 一 个 常见 的 腊 常 值 检测 策略 是 假定 一 个 变量 空间 的 距 
离 有 度量， 然后 把 距离 其 他 观测 值 “ 太 远 ” 的 观测 值 标 记 为 寞 常 观测 值 。 

















从 以 上 的 摘 述 中 我 们 可 以 知道 在 聚 类 和 弄 和 常 值 检 测 之 间 有 很 密切 的 
关系 。 基 于 观测 值 之 间距 离 的 方法 都 是 这 样 的 。 根 据 定义 ， 异 常 值 是 十 
分 不 同 的 个 案 ， 它 们 与 聚 类 中 其 他 观测 值 距离 太 远 ， 因 此 不 能 和 聚 类 中 
的 其 他 观测 值 一 致 。 这 意味 着 一 个 好 的 数据 集聚 类 不 应 该 在 大 的 数据 类 








中 含有 异常 值 。 人 至 多 我 们 期 望 该 异常 值 和 其 他 异常 值 类 似 ， 但 根据 定 
义 ， 这 些 是 罕见 的 观测 值 ， 因 此 不 应 该 形成 一 个 大 的 数据 类 。 


我 们 问题 中 应 用 的 无 监督 技术 有 一 些 约束 条 件 。 事 实 上 ， 我 们 的 目 
标 是 得 到 一 组 观测 值 的 异常 值 排序 。 这 个 排序 作为 公司 内 检验 决策 的 基 
础 。 这 意味 着 选择 的 无 监督 工具 必须 可 以 用 来 识别 和 排列 异常 值 。4.4.1 
节 描 述 了 我 们 用 来 解决 这 个 数据 挖掘 任务 的 无 监督 技术 。 





无 监督 学 习 的 参考 文献 


聚 类 分 析 是 一 个 成 熟 的 研究 方法 。 好 的 参考 文献 是 Kaufman 和 
Rousseeuw (1990) 、IMurtagh (1985) 的 著作 。 更 多 有 关 数 据 挖 振 方 面 
的 内 容 可 以 在 很 多 数据 挖掘 的 参考 书 中 找到 ， 例 如 Han 和 
Kamber (2006) 的 书 。 很 多 学 科 中 都 有 异常 值 探测 的 研究 。 标 准 的 参考 
资料 包括 Barnett 和 Lewis (1994) 和 Hawkins (1980) 的 书 。 

Austin (2004) 和 Chandola 等 人 (2007) 给 出 了 关于 异常 值 探测 很 好 的 概 
述 。 有 关 聚 类 和 异常 值 之 间 的 关系 ， 可 以 参考 Ng 和 Han (1994) 、 
Torgo (2007) 的 文章 。 


4.3.1.2 有 监督 技术 


有 正常 或 者 欺诈 标记 的 交易 经 过 检验 ) 集合 可 以 应 用 其 他 类 型 的 
建 模 方法 。 有 监督 学 习 方法 应 用 这 种 有 标记 的 数据 类 型 。 有 监督 学 习 方 
法 的 目标 是 找到 目标 变量 《需要 学 习 的 概念 ) 和 一 组 目 变量 《预测 变量 








或 者 属性 ) 之 间 的 关系 。 这 个 模型 可 以 认为 是 一 个 与 描述 了 目标 变量 Y 
和 预测 变量 Xi > Xy as X, ZI KARA A AIRY =F CX, X2, 

sees X。) 的 近似 。 这 个 建 模 技 术 的 任务 是 得 到 能 够 优化 某 些 选择 准 
则 的 模型 参数 ， 例 如 ， 最 小 化 模型 误差 。 这 个 搜索 任务 在 学 习 现 象 的 观 
测 值 样本 的 帮助 下 进行 ， 即 它 是 基于 包含 所 学 习 概 念 例子 的 数据 集 。 这 
些 例子 是 变量 X| ，X, ，...………， X。，Y 的 特殊 实例 。 如 果 目 标 变量 Y 是 
连续 的 ， 那 么 就 有 一 个 (多 元 ) 回归 问题 。 如 果 Y 是 一 个 名 义 变 量 ， 那 


么 束 有 一 个 分 类 问题 。 











就 我 们 的 数据 集 而 言 ， 目 标 变量 是 检验 任务 的 结果 ， 它 有 两 个 可 能 
取 值 : ok 和 fraud。 这 意味 着 我 们 的 目标 是 学 习 坎 诈 报告 和 正常 报告 的 概 
念 。 因 此 我 们 面临 一 个 分 类 问题 。 注 意 ， 由 于 我 们 不 能 确定 报告 是 否 大 
欺诈 ， 所 以 没有 经 过 检验 的 交易 是 不 能 用 在 这 些 任务 中 的 。 这 意味 着 如 
果 我 们 想 要 用 分 类 技术 得 到 一 个 模型 ， 然 后 用 它 来 预测 一 个 给 定 的 报告 
是 不 是 欺诈 ， 那 么 我 们 只 能 用 401146 个 报告 中 的 15732 个 报告 作为 训练 
样本 。 





我 们 面 对 的 分 类 问题 有 影响 性 能 评估 和 模型 本 身 的 特殊 性 。 这 个 特 
殊 性 在 于 ， 在 两 个 可 能 的 类 值 中 ， 一 个 值 的 出 现 频率 远 远大 于 另 一 个 
值 。 实 际 上 ， 在 15732 个 检验 报告 中 ，14462 个 是 正常 交易 ， 剩 下 的 只 有 
1270 个 报告 为 鞭 诈 。 此 外 ， 这 个 不 太 频 繁 的 概念 实际 上 是 这 个 问题 中 最 
重要 的 概念 ， 因 为 它 涉及 应 用 的 目的 : 欺诈 侦 测 。 这 意味 着 我 们 必须 选 





择 这 样 的 评价 标准 ， 它 能 够 正确 地 衡量 不 频繁 分 类 的 性 能 评价 ， 同 时 我 
们 应 该 选择 的 建 模 技术 也 必须 能 够 处 理 非常 不 平衡 的 数据 。 





本 和 案例 对 分 类 工具 的 应 用 进行 了 一 些 改变 。 事实 上 ， 我 们 感 兴趣 的 
古 按 照 可 能 存在 欺诈 的 概率 大 小 对 交易 排序 。 这 意味 着 对 于 新 报告 组 成 
的 测试 集 ， 我 们 将 用 模型 决定 哪些 报告 需要 进行 检验 。 对 于 给 定 的 测试 
个 委 ， 有 些 分 类 算法 只 能 够 输出 该 个 案 的 类 别 标签 。 这 对 于 我 们 的 问题 
古 不 够 的 ， 因 为 它 没有 给 出 划分 为 欺诈 的 个 案 的 排序 。 如 果 有 太 多 这 样 
的 个 案 ， 而 检验 资源 有 限 ， 我 们 就 不 能 决定 先 处 理 哪 一 个 。 我 们 需要 的 
征 一 个 概率 分 类 ， 也 就 是 说 ， 模 型 不 仅 应 该 预测 一 个 分 类 标签 ， 而 且 还 
应 该 有 这 个 标签 的 相关 概率 。 这 将 使 我 们 按照 所 估计 的 报告 为 欺诈 的 概 
率 来 对 个 案 进 行 排序 。 








有 监督 学 习 的 参考 文献 


有 监督 学 习 (或 者 称 为 预测 模型 ) 是 一 门 成 熟 的 学 科 ， 它 有 很 多 不 
同 的 方法 来 获得 未 知 预测 函数 的 逼近 。 任 何 关于 数据 挖掘 的 书 都 包括 这 
种 技术 (例如 ，Han 和 Kamber (2006) 、Hand 等 (2001) ， 或 者 Hastie 
等 (2001) ) 。 类 的 不 平衡 问题 也 是 许多 研究 工作 的 主题 ， 例 如 ， 
Chawla (2005) 或 者 Kubat 和 Matwin (1997) 。 


43.1.3 BE BAK 





有 时 候 找 到 有 标记 观测 值 的 成 本 很 大 ， 也 就 是 说 有 目标 变量 取 值 的 


个 案 很 难 找到 ， 因 此 有 了 半 监 督 方 法 。 这 种 信息 通常 需要 领域 专家 的 工 
作 ， 这 增加 了 数据 收集 的 成 本 。 男 一 方面 ， 特 别 是 随 看 传 感 占 和 其 他 类 
型 数据 自动 采集 装置 的 广泛 使 用 ， 没 有 标签 的 数据 往往 是 容易 获得 的 。 
因此 ， 经 常 过 到 的 问题 是 很 大 比例 的 数据 没有 标记 ， 而 只 有 少量 的 带 标 
记 数 据 和 它们 一 起 。 正 如 前 面 所 看 到 的 ， 这 是 本章 中 应 用 存在 的 情况 。 











半 监 督 技术 之 所 以 这 样 命名 是 因为 它 可 以 处 理 这 种 存在 有 标记 个 案 
和 未 标记 个 案 的 数据 集 。 通 常 有 两 种 不 同 的 半 监 督 方法 。 一 方面 ， 一 种 
半 监 督 分 类 技术 是 借助 未 标记 个 案 提 供 的 额外 信息 来 提高 标准 的 监督 分 
类 算法 的 性 能 。 男 一 种 半 监 督 方 法 是 半 监 督察 类 方法 ， 它 妾 试 在 从 类 过 
程 中 形成 组 别 的 准则 上 包含 一 些 约束 ， 这 些 约 束 是 基于 标记 的 数据 ， 这 
样 束 可 以 对 聚 类 过 程 进行 纠偏 。 





半 监 督 轮 类 的 思想 利用 现 有 的 标签 来 对 聚 类 过 程 纠 偏 ， 使 相同 标签 
的 个 案 在 同一 类 中 (must-link 约 束 〉 ， 或 者 把 不 同 标签 的 个 案 放 入 不 同 
的 组 中 《cannot-link) 。 在 基于 搜索 的 半 监 丢 聚 类 中 ， 改 变形 成 聚 类 的 
标准 来 对 方法 纠 侦 ， 从 而 找到 合适 的 个 案 聚 类 。 在 基于 相似 性 的 半 监 督 
方法 中 ， 对 算法 使 用 的 指标 进行 优化 以 满足 标记 数据 所 施加 的 限制 。 这 
意味 痢 ， 通 过 “ 符 曲 ?距离 的 概念 来 反映 must-link 和 cannot-link 约 束 。 








半 监 督 分 类 方法 有 很 多 的 替代 方法 。 一 个 众所周知 的 方法 是 自我 训 
练 。 这 是 一 个 迭代 方法 ， 筷 古 从 获得 有 标记 数据 的 分 类 模型 开始 。 下 一 
步 使 用 这 个 模型 来 对 无 标记 数据 进行 分 类 。 把 模型 具有 较 高 分 类 置信 上 度 

















的 个 案 和 预测 标记 一 起 加 入 到 原始 训练 集 ， 从 而 扩大 了 训练 集 。 使 用 这 
个 新 的 训练 数据 集 ， 重 新 获取 模型 ， 然 后 重复 以 上 整个 过 程 ， 直 到 满足 
一 定 的 收敛 准则 。 半 监督 分 类 模型 的 另 一 个 例子 是 直 推 式 支 持 向 量 机 
(TSVM) 。TSVM 的 目标 是 获得 一 个 未 标记 数据 集 的 标记 ， 从 而 使 线 
性 边界 在 初始 标记 数据 和 未 标记 数据 上 达到 最 大 的 利润 (参见 3.4.2.2 


ps 





另外 ， 我 们 应 该 考虑 应 用 的 特殊 限制 ， 即 获得 离 群 值 的 排序 。 取 决 
于 我 们 是 使 用 半 监 督 聚 类 方法 还 是 半 监 督 分 类 方法 ， 可 以 使 用 与 前 面 给 
出 的 无 监督 和 有 监督 方法 同样 的 策略 相应 地 来 完成 我 们 的 任务 。 





半 监 督 方法 的 参考 文献 


半 监 督学 习 方 法 在 研究 上 受到 了 越 来 越 多 的 重视 。Zhu (2006) 、 
Seeger (2002) 和 Zhu (2005) 对 已 有 工作 给 出 了 很 好 的 概述 文章 。 


4.3.2 ”评价 准则 





本 节 讨 论 怎样 评价 模型 。 当 给 出 交易 报告 的 一 个 测试 集 时 ， 每 个 模 
型 将 产生 这 些 报告 的 排序 。 本 市 讨论 怎样 评价 这 个 排序 。 








我 们 还 插 述 了 用 于 获取 选 定 评价 指标 的 可 菲 估 计 的 实验 方法 。 


我 们 数据 集 的 特性 是 同时 包括 标记 和 未 标记 数据 。 在 这 个 应 用 中 ， 
它们 被 转化 为 检验 和 未 检验 的 报告 。 这 增加 了 模型 比较 的 困难 ， 因 为 对 
监督 和 无 监督 方法 的 评价 方法 通常 是 不 同 的 。 模 型 得 到 的 排序 很 可 能 后 
时 包括 标记 和 未 标记 的 观测 值 。 对 前 者 而 言 ， 很 容易 评价 将 标记 数据 列 
入 待 检查 报告 集合 的 正确 性 。 在 未 标记 的 情况 下 ， 因 为 我 们 不 能 确定 这 
些 个 案 是 否 为 欺诈 ， 所 以 这 种 评价 是 比较 困难 的 。 








4.3.2.1 决策 精确 度 与 回溯 精确 度 


对 我 们 的 应 用 而 言 ， 一 个 成 功 模 型 应 该 得 到 一 个 交易 排序 ， 其 中 已 
知 的 欺诈 交易 在 排序 的 顶部。 我 们 的 数据 中 有 欺诈 的 报告 占 少 数 。 给 定 
一 个 我 们 的 资源 所 允许 检验 的 报告 个 数 k， 我 们 希望 在 排序 的 项 部 k 个 位 
置 中 ， 或 者 只 有 欺诈 交易 的 报告 或 者 未 检验 的 报告 。 然 而 ， 我 们 希望 这 
个 测试 集中 所 有 已 知 的 欺骗 报告 出 现在 这 k 个 位 置 中 。 








正如 我 们 在 3.3.4 市 已 经 看 到 的 ， 当 我 们 的 目标 是 预测 一 个 小 集合 的 


罕见 事件 〈 这 里 是 其 又 ) 时 ， 诀 策 精确 度 和 回溯 精确 度 是 合适 的 评价 指 
标 。 给 定 检验 限制 k 值 ， 我 们 可 以 计算 排序 的 最 顶端 k 个 位 置 的 决策 精确 
度 和 回溯 精确 度 。 这 个 限定 值 k 决 定 了 根据 模型 哪些 报告 应 该 被 检验 。 

从 监督 分 类 的 角度 看 ， 这 相当 于 把 顶端 的 k 个 位 置 预测 为 fraud 类 ， 其 余 
的 则 为 正 党 报告。 决策 精 确 度 告 诉 我 们 顶端 k 个 值 的 多 大 比例 事实 上 是 
标记 为 欺诈 的 报告 。 回 调 精 确 度 的 值 给 出 这 k 个 位 置 所 包含 的 测试 集 的 
其 诈 行 为 的 比例 。 我 们 应 该 注意 到 ， 所 获得 的 值 是 喜 观 的 。 实 际 上 ， 如 
果 顶 端 k 个 值 包括 的 是 未 标记 的 报告 ， 它 们 不 会 进行 决策 精确 度 和 回调 
精确 度 的 计算 。 但 是 ， 如 果 对 它们 进行 了 检验 ， 我 们 惑 可 以 友 现 它们 实 
际 上 是 诈骗 交易 ， 因 此 决策 精确 度 和 回溯 精确 度 可 能 会 更 高 。 








通常 决策 精确 度 和 回调 精确 度 之 间 有 一 个 权衡 。 比 如 ， 如 果 所 有 测 
试 集 个 案 都 预测 为 欺诈 事件 ， 那 么 很 容易 使 决策 精确 度 达到 100%。 然 
而 ， 这 样 的 策略 也 将 不 可 避免 地 导致 非常 低 的 回溯 精确 度 。 但 是 ， 我 们 
当前 的 应 用 有 一 些 特殊 性 。 给 定 用 于 检验 行为 的 资源 的 约束 和 条件， 我 们 
真正 想 要 的 是 最 大 限度 地 利用 这 些 资源 。 这 意味 者 ， 如 果 我 们 可 以 用 x 
小 时 检查 报告 ， 并 能 够 在 这 x 小 时 捕捉 到 所 有 的 欺诈 行为 ， 那 么 我 们 很 
高 兴 ! 即使 在 这 x 小 时 ， 我 们 实际 上 也 检查 了 一 些 正常 的 报告 ， 也 就 是 
说 有 较 低 的 回调 精确 度 。 回 调 精 确 度 实际 上 是 在 此 应 用 中 的 关键 问题 。 
我 们 需要 的 是 能 够 用 现 有 的 资源 达到 100% 回 溯 精 确 度 。 











4.3.2.2 ”提升 图 和 PR 曲线 


4.3.2.1 市 提 到 计算 给 定 检验 行为 的 决 全 精确 度 和 回 济 精 确 度 。 在 不 
同 的 检验 水 平 下 查看 模型 的 性 能 是 一 件 有 趣 的 事情 。 不 同 的 模型 可 能 会 
在 不 同 的 水 平 上 占据 一 定 的 优势 ， 而 且 在 比较 模型 时 ， 这 也 可 能 成 为 有 
用 的 信息 。 








决 宽 精确 度 / 回 调 精 确 度 PR) 曲线 是 模型 性 能 对 这 两 者 的 一 种 可 
视 化 表示 。 通 过 在 不 同 的 工作 点 得 到 上 面 两 个 统计 量 的 插值 ， 从 而 得 到 
该 曲线 。 这 些 工 作 点 由 模型 提供 的 感 兴趣 的 类 别 排序 的 中 断 点 给 出 。 在 
我 们 的 例子 中 ， 这 将 对 应 于 应 用 在 模型 所 产生 的 离 群 值 排序 上 的 不 同 的 
资源 限制 。 对 不 同 的 限制 水 平 “ 即 检验 更 少 或 更 多 的 报告 ) 进行 迭代 ， 
得 到 不 同 的 决策 精确 度 和 回溯 精确 度 。PR 曲 线 允 许 这 种 类 型 的 分 析 。 








添加 包 ROCR (Sing etal., 2009) 包含 多 个 函数 ， 这 些 函 数 对 评估 
二 进 制 分 类 《 即 我 们 上 文 所 提 到 的 有 两 个 分 类 的 问题 ) 非常 有 用 。 这 是 
一 个 额外 的 添加 包 ， 必 须 安装 后 才能 使 用 以 下 的 程序 代码 。 该 添加 包 实 
现 了 很 多 评价 指标 ， 而 且 还 包括 如 何 获得 很 多 曲线 的 方法 。PR 曲 线 可 
以 很 容易 地 通过 该 添加 包 中 的 函数 得 到 。 使 用 添加 包 非 常 简单 ， 我 们 使 
用 模型 的 预测 功能 和 测试 集 的 真实 值得 到 类 prediction 的 一 个 对 象 。 这 是 
通过 函数 prediction0 实 现 的 。 由 此 产生 的 结果 对 象 可 以 当做 函数 
performance() 的 参数 值 ， 以 获得 一 些 评价 指标 。 最 后 ， 将 函数 
performanceO) 的 运算 结果 用 于 plot0 函 数 ， 画 出 不 同 的 性 能 指标 曲线 。 以 
下 代码 应 用 该 添加 包 的 一 些 示 例 数 据 来 说 明 这 个 过 程 : 











> library (ROCR) 
> data(ROCR. simple) 
> pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels) 


> perf <- performance(pred, "prec", "rec") 
> plot (perf) 
运用 上 述 代码 画 出 的 PR 曲线 如 图 4-5 的 左 图 所 示 。 添 加 包 ROCR 产 
生 的 PR 曲线 具有 锯齿 形状 。 这 通常 认为 是 不 明确 的 ， 有 一 种 方法 可 以 
克服 这 种 情况 。 也 就 是 说 ， 在 一 个 确定 的 回溯 精确 度 r 下 ， 可 以 计算 任 
何 大 于 或 等 于 的 回溯 精确 度 水 平 所 对 应 的 决策 精确 度 的 最 大 值 Preci ， 
并 把 该 值 作为 水 平 r 的 决策 精确 度 ， 如 式 〈4-1) 所 示 。 


Prec,,,(r) = max Prec ( r (4-1) 


Cle ee eee BKM, RIISA 
一 个 名 为 y.values 的 属性 ， 它 含有 图 形 y 轴 上 的 值 ， 即 所 绘制 的 决策 精确 
Eo RAKE -D 计算 插值 的 决策 精确 度 ， 并 用 它 答 换 y 轴 坐标 
值 ， 就 可 以 得 到 一 个 无 锯齿 效果 的 图 。 下 面 的 代码 就 实现 了 这 种 理想 的 
图 形 : 





> PRcurve <- function(preds, trues, ...) { 

+ require(ROCR, quietly = T) 

+ pd <- prediction(preds, trues) 

+ pf <- performance(pd, "prec", "rec") 

+ pfOy.values <- lapply(pf@y.values, function(x) rev(cummax(rev(x)))) 
+ piot (pf; ...) 

+ 


述 代 码 运 用 了 函数 lapply()， 因 为 实际 上 上， 属性 y.values 的 值 是 一 


个 列表 ， 它 包括 了 实验 过 程 中 多 个 迭代 的 结果 。 我 们 将 在 本 章 的 后 面 利 
用 这 个 事实 。 对 于 每 一 个 决策 精确 度 癌 量 ， 用 函数 cummax(O) 和 函数 rev() 
来 计算 插值 的 预测 精确 上 度 。 后 一 个 函数 仅仅 是 将 向 量 倒序 排列 ， 而 函数 
en A ni te 
， 可 以 用 一 组 癌 量 数据 来 实验 该 函数 。 函 数 PRcurve0) 已 经 包含 在 本 书 
的 添加 包 中 ， 所 以 不 需要 输入 上 述 代 码 ， 直 接 使 用 就 可 以 了 。 可 以 应 用 
PRcurve() 函 数 演示 上 面 给 出 的 示例 数据 ， 产 生 图 4-5 的 右 图 : 























> PRcurve(ROCR.simple$predictions, ROCR.simple$labels) 
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图 4-5 it (a) PR (£) 的 PR 曲线 


如 何 用 这 类 曲线 来 评价 异常 值 排序 模型 ? 我 们 有 一 个 售 有 变量 
Insp 《有 3 个 可 能 的 取 值 ，unkn、ok 和 fraud〉 的 测试 集 ， 以 及 由 某 些 模 


型 产生 的 测试 集 的 观测 值 排 序 。 我 们 要 求 模 型 给 出 测试 集中 每 一 个 观测 
值 的 异常 值 排序 分 数 ， 这 些 分 数 的 范围 为 0 一 1。 分 数 越 高 ， 说 明 这 个 观 
汕 值 是 欢 诈 交易 的 模型 置信 和 度 越 高 。 这 个 分 数 是 获得 观测 值 排序 的 信息 
依据 。 








表 4-1 示例 的 混淆 矩阵 























如 果 我 们 按照 异常 值 分 数 对 测试 集 记录 进行 排序 ， 那 么 根据 我 们 检 
验 的 资源 限制 k， 可 以 计算 出 不 同 的 预测 精确 度 和 回溯 精确 度 值 。 确 定 
检验 资源 限制 等 价 于 选择 上 述 我 们 认为 一 个 观测 值 为 欺诈 的 异常 值 分 数 
的 闵 值 。 我 们 来 看 一 个 小 例子 。 假 设 我 们 有 7 个 测试 样本 ，Insp 列 的 取 
值 为 {ok,ok,fraud,unknown,fraud,fraud,unknown} 。 假 设 某 个 模型 对 这 
些 观测 值 给 出 的 异常 值 分 数 为 (0.2, 0.1, 0.7, 0.5, 0.4, 0.3, 

0.25} 。 如 果 我 们 对 这 些 分 数 进行 排序 ， 得 到 
{fraud,unknown,fraud,fraud,unknown,ok,ok} 。 如 果 检 验 范 围 只 允许 对 
两 组 观测 值 进行 检验 ， 那 么 将 等 价 于 模型 把 向 量 

{ fraud,unknown, fraud,fraud,unknown,ok,ok } 预测 为 向 量 

{ fraud,fraud,ok,ok,ok,ok,ok} 。 这 正好 对 应 于 表 4-1 的 混 请 窃 阵 ， 而 且 以 
下 的 决策 精确 度 和 回溯 焰 确 度 也 丰 通 过 该 混 河 滤 阵 计算 出 的 : 
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给 出 的 是 决策 精确 度 和 回溯 精确 度 的 亚 观 估计 。 因 此 ， 报 告 中 排名 第 二 
的 fraud 的 预测 值 ， 认 为 是 不 正确 的 ， 因 为 它 的 真实 值 为 nkn， 我 们 不 能 
肯定 这 个 值 是 不 是 具有 欺诈 性 。 











我 们 将 运用 这 种 对 于 异常 值 排序 的 事后 处 理 方 式 ， 去 获得 它们 的 决 
朱 精 确 度 和 回 浏 精确 度 以 及 相应 的 PR 曲线 。 





提升 图 给 我 们 提供 了 一 个 关于 模型 预测 的 不 同 角 上 度 。 这 些 图 给 回调 
精确 度 更 高 的 重要 性 ， 因 此 在 茶 种 程度 上 ， 就 像 在 4.3.2.1 节 最 后 提 到 的 
那样 ， 它 更 适合 我 们 的 目标 。 这 些 图 形 的 x 轴 是 阳性 预测 紊 (RPP) ， 
它 古 模型 预测 一 个 阳性 类 的 概率 。 这 个 值 由 阳性 分 类 预测 值 的 数量 除 以 
测试 集 的 总 观测 值 数 量 来 估计。 比如 在 表 4-1 这 个 例子 中 ， 这 个 值 就 是 
(1+1) /7。 在 我 们 应 用 程序 中 ， 我 们 可 以 将 这 个 统计 量 视 为 选 定 检 验 
的 报告 比例 。 提 升 图 的 y 轴 是 用 回溯 精确 度 除 以 RPP 得 到 的 商 。 





我 们 可 以 用 ROCR 包 中 的 函数 绘制 提升 图 。 以 下 是 一 个 应 用 示例 ， 
得 到 提升 图 如 图 4-6 的 左 图 所 示 。 
> pred <- prediction(ROCR.simple$predictions, ROCR.simple$labels) 


> perf <- performance(pred, "lift", "rpp") 
> plot(perf, main = "Lift Chart") 


尽管 在 我 们 这 个 特定 应 用 中 并 不 是 完全 要 说 明 提 升 图 的 有 用 性 。 一 


个 更 有 趣 的 图 将 会 给 我 们 演示 根据 RPP 所 捕获 的 检验 限制 得 到 的 回溯 精 
确 度 值 。 这 个 曲线 命名 为 累积 回溯 精确 上 度 图 ， 这 个 图 可 以 通过 ROCR 包 


FY PR 


Lift value 


数 实现 ， 其 代码 如 下 : 


> CRchart <- function(preds, trues, ...) { 
+ require(ROCR, quietly = T) 

= pd <- prediction(preds, trues) 

+ pf <- performance(pd, "rec", "rpp") 
~ plot(pf, ...) 

+ } 


再 次 应 用 前 面 的 虚拟 例子 ， 得 到 网 4-6 的 右 图 : 


> CRchart (ROCR.simple$predictions, ROCR.simple$labels, 
+ main='Cumulative Recall Chart') 


Lift Chart Cumulative Recall Chart 
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图 46 提升 图 ( 左 图 ) 以 及 累积 回溯 精确 度 图 ( 右 图 ) 


对 累积 回调 精确 度 图 而 言 ， 模 型 的 曲线 越 靠近 左上 角 ， 模 型 越 好 。 
本 书 的 添 加 包 中 有 函数 CRchart0)， 只 要 安装 了 该 包 ， 任 何 时 候 都 可 以 使 
用 它 。 


4.3.2.3 ”标准 价格 的 标准 化 距离 





在 前 面 的 章节 中 我 们 看 到 的 性 能 评价 方法 ， 仅 是 对 有 标记 报告 的 排 
序 进行 评价 。 它 们 是 监督 分 类 的 评价 指标 。 由 模型 得 到 的 这 些 排名 的 前 
面 位 置 极 有 可 能 包含 未 标记 的 报告 。 这 些 未 标记 的 报告 是 否 在 排序 中 有 
正确 的 位 置 呢 ? 我 们 不 能 肯定 这 一 点 ， 因 为 我 们 没有 对 它们 进行 检验 。 
不 过 ， 我 们 可 以 对 它们 进行 浅显 的 分 析 。 例 如 ， 我 们 可 以 把 它们 的 单位 
价格 和 同一 产品 报告 的 标准 价格 进行 比较 。 我 们 预期 这 些 价 格 之 间 关 异 
RAW, Kite Mem, WHR ATK. KETO, TRH 
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排名 质量 的 一 个 较 好 指标 。 








不 同 的 产品 有 不 同 规格 的 单位 价格 ， 如 图 4.4 所 示 。 为 了 避免 这 些 
不 同 价格 对 异常 值 排名 的 影响 ， 我 们 对 单位 价格 和 标准 价格 之 间 的 距离 
进行 标准 化 。 运 用 IQR (四 分 位 距 ) 来 标准 化 这 个 距离 : 

ea) 


NDTP 人 4.2 
(u) IOR ( ) 





其 ”是 产品 p 的 标准 单位 价格 ， 是 该 产品 交易 的 单位 价格 的 中 位 
BL; IQR, 是 该 产品 单位 价格 的 四 分 位 距 。 


在 我 们 的 实验 中 ， 我 们 使 用 NDTP, 的 平均 值 作为 评价 模型 性 能 的 
一 个 指标 。 以 下 的 程序 代码 用 来 计算 这 个 统计 量 : 


> avgNDTP <- function(toInsp,train,stats) { 

+ if (missing(train) && missing(stats)) 

+ stop('Provide either the training data or the product stats') 
+ if (missing(stats)) { 

+ notF <- which(train$Insp != 'fraud') 

+ stats <- tapply(train$Uprice[notF], 

+ list (Prod=train$Prod{notF]), 


+ function(x) { 

+ bp <- boxplot.stats(x)$stats 

+ c (median=bp[3] , iqr=bp[4]-bp[2]) 

十 P 

+ stats <- matrix(unlist (stats), 

+ length (stats) ,2,byrow=T, 

+ dimnames=list (names (stats) ,c('median','iqr') 
+ stats [which(stats[,'igr']==0),'igr'] <- 

+ stats [{which(stats[,'igr']==0) ,'median'] 

* 

+ 

+ mdtp <- mean(abs(toInsp$Uprice-stats[toInsp$Prod,'median']) / 
+ stats [toInsp$Prod,'igr']) 

+ return(mdtp) 

EJ 
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它 必 须 接 收 训练 集 数据 以 获得 每 个 产品 的 中 位 数 和 四 分 位 距 ， 或 者 接收 
己 经 准备 好 了 有 具有 这 一 组 信息 的 数据 结构 ， 这 样 可 以 提高 反复 调用 此 函 





数 时 的 计算 效率 。 如 果 接 收 的 是 训练 数据 ， 那 么 函数 将 用 训练 集 数据 计 
算 每 一 个 产品 的 无 欺诈 交易 的 中 位 数 和 四 分 位 距 。 那 么 可 能 会 发 生 四 分 
位 距 为 0 的 情况 ， 特 别 是 在 产品 交易 量 较 少 的 情况 下 。 为 了 避免 计算 
NDTP, 时 除数 为 零 的 情况 ， 我 们 把 该 情况 下 的 四 分 位 距 设 置 为 中 位 数 
的 值 。 











4.3.3 ”实验 方法 


我 们 使 用 的 数据 集 的 大 小 很 合理 。 这 种 情况 下 ， 我 们 选择 保留 
(Hold Out) 方法 来 进行 实验 比较 是 有 意义 的 。 这 个 方法 把 已 有 的 数据 
集 随 机 地 分 成 两 部 分 (通常 的 比例 为 70% 和 30%)〉 ， 其 中 的 一 部 分 用 于 
获取 模型 ， 而 另 一 部 分 用 来 测试 。 如 果 有 必要 ， 这 个 过 程 可 以 重复 多 
次 ， 以 确保 获得 的 结果 更 稳健 。 我 们 数据 集 的 容量 可 以 确保 我 们 获得 的 
结果 在 统计 学 上 是 可 靠 的 。 如 果 我 们 选择 30% 的 数据 作为 验证 集 ， 就 相 
应 于 120343 个 报告 。 





在 这 种 情况 下 ， 困 难 就 是 不 同类 型 报告 之 间 分 布 的 不 均衡 性 ， 即 在 
标记 个 案 上 是 不 平衡 的 。 正 党 的 重 抽样 策略 可 能 会 导致 一 个 测试 集 的 正 
各 报告 /其 诈 报 告 的 不 同 分 布 。 当 有 这 种 不 均衡 的 分 布 类 型 时 ， 推 荐 使 
用 分 层 抽样 方法 。 这 种 方法 从 具有 不 同类 型 的 观测 值 袋 子 中 随机 抽样 ， 
以 确保 所 抽取 的 样本 遵守 初始 数据 的 分 布 。 例 如 ， 如 果 有 10% 的 个 案 属 
于 类 X， 其 余 的 90% 都 是 属于 类 Y， 就 把 所 有 的 观测 值 放 入 两 个 独立 的 
袋子 中 。 如 果 想 要 一 个 有 100 个 样本 的 随机 分 层 抽 样 ， 束 从 有 类 X 的 观 
测 值 袋子 中 随机 抽取 10 个 样本 ， 然 后 剩余 的 90 个 样本 从 有 类 Y 观 调 值 的 
袋子 中 抽取 ， 这 样 做 残 遵守 了 最 开始 的 类 比例 。 





在 本 书 的 R 添 加 包 中 ， 有 一 个 holdOut0 函 数 ， 它 的 作用 和 第 3 章 中 的 





交叉 验证 和 蒙特 卡 罗 实 验 类 似 ， 用 于 进行 hold-out 实 验 。 该 函数 的 一 个 
参数 ， 是 hldSetting 类 对 象 ， 它 用 于 设置 实验 。 在 其 他 参数 中 ， 这 个 对 象 
允许 你 指定 应 用 分 层 抽 样 方 法 。4.4 节 给 出 了 几 个 应 用 该 函数 来 获取 我 
们 选 定 的 评价 统计 量 的 hold-out 佑 计 值 的 例子 。 这 些 选 定 的 统计 量 是 决 
策 精确 度 、 回 济 精 确 度 和 平均 NDTP。 下 面 的 函数 用 来 计算 这 些 指标 : 

> evalQutlierRanking <- function(testSet,rankOrder,Threshold, statsProds) { 

+  ordTS <- testSet {rankOrder,] 

+ N <- nrow(testSet) 

+ nF <- if (Threshold < 1) as.integer(Threshold*N) else Threshold 

+ cm <- table(c(rep('fraud',nF),rep('ok',N-nF)) ,ordTS$Insp) 

+ 

+ 


prec <- cm['fraud','fraud']/sum(cm[ fraud', ]) 
rec <- cm['fraud','fraud']/sum(cm[,'fraud']) 


+  AVGndtp <- avgNDTP(ordTS[nF,],stats=statsProds) 
+ yreturn(c(Precision=prec,Recall=rec,avgNDTP=AVGndtp) ) 


ae: 

该 函数 需要 用 户 提 供 测 试 集 、 模 型 产生 的 该 测试 集 的 排序 、 一 个 指 
定 检 测 限 值 的 阔 值 无 论 是 百分比 或 报告 的 数量 ) 和 产品 的 统计 量 〈 中 
位 数 和 四 分 位 距 ) 。 








在 4.2.3.2 市 中 ， 我 们 观察 到 的 产品 相当 不 同 ， 实 际 上 有 些 产 品 有 很 
少 的 交易 。 因 此 ， 我 们 可 以 质疑 一 起 分 析 所 有 产品 的 交易 是 否 有 意义 。 
支持 一 起 检查 它们 是 因为 有 一 个 变量 〈 产 品 ID) 可 以 用 来 区 分 产品 ， 因 
此 如 果 有 必要 ， 建 模 技术 可 以 使 用 该 变量 。 此 外 ， 把 所 有 交易 放 在 一 
起 ， 模 型 可 以 利用 这 些 产 品 之 间 的 关系 。 然 而 ， 另 一 种 是 依次 分 析 每 一 
个 产品 ， 获 得 它们 相应 交易 的 离 群 值 评 分 排序 。 这 就 需要 一 个 额外 的 步 








又 ， 即 从 单个 产品 的 排名 获得 最 终 的 全 局 排名 ， 但 该 步骤 比较 简单 。 我 
们 将 会 对 应 用 不 同 策略 建立 的 模型 进行 实验 。 从 实验 方法 的 角度 来 看 ， 
我 们 把 所 有 的 产品 聚 在 一 起 。 在 这 些 交 易 中 ， 我 们 将 用 分 层 保留 策略 来 
随机 选择 一 个 测试 集 。 这 个 测试 集 将 应 用 于 不 同 的 建 模 技术 ， 它 们 将 返 
回 按照 这 些 交 易 为 欺诈 的 概率 估计 的 排序 。 本 质 上 ， 模 型 可 以 决定 对 产 
品 进行 单个 分 析 或 一 起 分 析 所 有 产品 。 











4.4 计算 离 群 值 的 排序 





本 节 描 述 用 于 获取 离 群 值 排 序 的 不 同 模型 。 对 于 每 一 次 尝试 ， 我 们 
都 采用 70%/30% 的 分 层 保 留 策略 来 估计 结果 。 


4.4.1 无 监督 方法 


4.4.1.1 修正 的 箱 图 规则 


在 4.2.2 节 中 ， 我 们 定义 了 箱 图 规则 ， 用 于 个 测 一 个 服从 近 正 态 分 布 
的 连续 变量 的 离 群 值 。 例 如 ， 产 品 的 单位 价格 这 个 例子 。 基 于 此 ， 我 们 
可 以 把 这 个 简单 的 规则 看 做 是 可 以 应 用 于 本 章 数 据 的 基准 方法 。 











应 用 箱 图 规则 发 现 每 一 个 产品 交易 中 的 异常 单位 价格 ， 从 而 识别 出 
一 些 可 能 是 离 群 值 的 数值 。 我 们 可 以 把 一 个 规律 用 于 任何 一 个 出 现在 已 
给 测试 集中 的 产品 交易 集合 上 。 最 后 ， 我 们 得 到 每 一 个 产品 可 能 的 离 群 
值 集合 。 我 们 需要 决定 怎么 从 这 些 离 群 值 组 合 得 到 整个 测试 集 的 离 群 值 
排序 。 这 意味 着 为 了 排序 ， 我 们 必须 能 够 清晰 地 区 分 出 离 群 值 。 一 个 可 
能 的 方法 就 是 4.3.2.3 节 描述 的 标准 化 到 标准 〈 中 位 数 ) 单位 价格 
CNDTP) 的 距离 。 这 个 方法 可 视 为 箱 图 规则 的 一 个 变形 ， 因 为 两 者 都 
用 到 中 心 值 的 距离 来 决定 一 个 值 的 * 离 群 程度 "。 这 种 方法 CNDTP) 的 
优点 在 于 它 是 一 种 无 量 纲 的 度量 ， 因 此 可 以 将 不 同 产品 的 数值 混 放 在 一 








起 ， 从 而 给 出 一 种 适用 于 全 部 测试 集 数 据 的 全 局 排序 。 


> BPrule <- function(train,test) { 

+ notF <- which(train$Insp != 'fraud') 

+ ms <- tapply(train$Uprice[notF] ,list(Prod=train$Prod[notF]), 
+ function(x) { 

+ bp <- boxplot.stats(x)$stats 

+ c(median=bp[3] , iqr=bp[4]-bp[2]) 
+ H} 

+ ms <- matrix(unlist(ms),length(ms),2,byrow=T, 
+ dimnames=list (names (ms) ,c('median','iqr'))) 

+ ms[which(ms[,'iqr']==0),'iqr'] <- ms[which(ms[,'iqr']==0) ,'median'] 
+ ORscore <- abs(test$Uprice-ms[test$Prod,'median']) / 

+ ms[test$Prod,'igr'] 

+ yreturn(list (rankOrder=order (ORscore,decreasing=T), 

+ rankScore=ORscore) ) 

Po 


上 述 函 数 的 参数 是 训练 集 和 测试 集 。 在 计算 出 每 一 种 产品 的 中 位 数 
和 四 分 位 距 《〈IQR) 后 ， 这 个 函数 束 用 这 些 统计 量 利用 式 (4-2) 来 计算 
离 群 值 分 数 。 最 后 ， 它 返回 一 个 由 离 群 值 分 数 和 测试 集 观察 值 排 序 所 组 
成 的 列表 。 假 设 这 个 方法 用 NDTP 值 来 得 到 排序 ， 那 么 可 预见 这 个 指标 
的 平均 值 可 以 很 好 地 进行 评分 。 





注意 ， 这 里 是 我 们 应 该 应 用 产品 之 间 相 似 性 信息 的 地 方 。 实 际 上 ， 
对 于 交易 量 不 多 的 产品 ， 我 们 可 以 考虑 检验 是 否 有 产品 的 单位 价格 分 布 
显著 地 与 该 产品 相似 。 如 果 存 在 这 样 的 产品 ， 就 把 它 的 交易 加 入 ， 因 此 
可 以 用 一 个 较 大 的 样本 来 估计 中 位 数 和 IQR 统 计量 。 这 可 以 通过 调用 函 
数 tapply0 来 实现 ， 这 里 我 们 包括 有 关 相 似 产品 的 信息 ， 它 们 存储 在 文 
件 “similarProducts.Rdata” 中 (参见 4.2.3.2 节 的 最 后 )。 这 一 点 留 给 读者 














自行 练习 。 


我 们 现在 用 保留 实验 方法 来 评价 这 个 简单 的 方法 。 为 了 计算 每 种 产 
品 的 平均 NDTP 值 ， 首 先 计 算 每 一 种 产品 的 中 位 数 和 IQR 值 。 然 后 我 们 
用 所 有 可 用 的 数据 来 进行 以 上 计算 ， 因 为 我 们 旨 在 得 到 这 些 值 最 精确 的 
估计， 从 而 能 够 正确 评价 模型 的 离 群 值 排序 能 力 。 因 为 全 局 信息 没有 传 
递 给 建 模 技术 ， 所 以 这 里 不 能 认为 是 从 测试 数据 给 出 信息 《避免 模 型 和 
测试 集 相 关 ) 。 这 只 是 得 到 模型 侦 测 弄 币值 能 力 更 可 靠 的 估计 方式 。 





> notF <- which(sales$Insp != 'fraud') 
> globalStats <- tapply(sales$Uprice[notF], 
+ list (Prod=sales$Prod[notF]), 
function(x) { 
bp <- boxplot.stats(x)$stats 
c(median=bp [3] , iqgr=bp[4]-bp[2] ) 
}) 
globalStats <- matrix(unlist(globalStats), 
length (globalStats) ,2, byrow=T, 
dimnames=list (names (globalStats),c(‘median' ,'igr'))) 
globalStats [which(globalStats[,'igr']==0),'igr'] <- 
globalStats [which(globalStats[,'igqr']==0) ,'median'] 
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holdOut() PA 2 i 22 Vd A] NEE, MA E SEE BRE RIE RR 
得 和 评估 BPrule 方 法 。 在 前 面 几 章 中 的 交叉 验证 和 蒙特 卡 罗 实 验 中 ， 我 
们 为 其 他 学 习 系 统 建立 了 类 似 的 用 户 函 数 。 这 些 函 数 返回 一 个 向 量 ， 其 
值 为 给 定 训练 集 和 测试 集 的 模型 评估 统计 量 的 值 。 这 次 我 们 需要 其 返回 
更 多 的 信息 。 为 了 绘制 PR 图 ， 以 及 累积 回溯 精确 度 曲 线 ，ROCR 添 加 包 
函数 还 需要 知道 每 一 个 测试 样本 观测 值 的 预测 值 和 真实 值 。 因 此 也 需要 


函数 返回 这 些 数值 “预测 值 和 真实 值 ) ， 以 便 后 面 绘制 曲线 。4.3.2.2 节 
用 一 个 虚拟 的 小 例子 演示 了 绘制 图 形 所 要 应 用 的 信息 。 下 面 代码 给 出 的 
函数 将 在 holdOut0 中 调用 ， 它 将 返回 评价 统计 量 的 值 以 及 禹 有 预测 值 和 
真实 值 信 息 的 属性 。 


> ho.BPrule <- function(form, train, test, ...) { 

+ res <- BPrule(train,test) 

+  structure(eval0utlierRanking(test,res$rankOrder,...), 

+ itInfo=list (preds=res$rankScore, 

+ trues=ifelse(test$Insp=='fraud',1,0) 
+ ) 

+ ) 

+ } 


大 多 数 R 对 象 可 以 有 附带 的 属性 。 实 际 上 ， 它 是 把 一 个 其 他 对 象 附 
加 到 前 一 个 对 象 中 ， 这 些 附加 对 象 给 前 一 个 对 象 额外 信息 《例如 维 数 
等 ) 。 在 这 个 例子 中 ， 我 们 给 向 量 附加 了 BPrule 方 法 的 分 数 ， 它 含有 预 
测 分 数 和 预测 分 数 相 应 的 真实 值 。 函 数 structure0 用 来 建立 一 个 对 象 并 指 
定 该 对 象 的 属性 值 。 这 些 属 性 要 有 一 个 名 字 并 包含 一 个 R 对 象 。 这 里 我 
们 用 structure0) 函 数 创建 一 个 带 有 itsInfo 属 性 的 对 象 。 实 验 过 程 中 的 每 一 
次 迭代 ，holdOut(0) 函 数 保存 这 些 属性 信息 。 为 了 存储 这 些 信息 ， 需 要 调 
用 带 有 可 选择 参数 itsInfo=T 的 holdOut(0) 函 数 。 这 样 就 能 确保 那些 所 谓 
的 “用 户 定 义 ” 的 函数 无 论 返 回 什么 名 为 itsInfo 的 属性 结果 ， 它 们 都 会 被 
收集 在 一 个 列表 中 ， 并 且 返 回 为 一 个 带 有 itsInfo 属 性 的 结果 作为 函数 
holdOut() 的 结果 。 





我 们 已 经 准备 好 运行 holdOut() 函 数 来 得 到 BPrule 系 统 选 定 的 统计 量 
的 值 。 我 们 将 会 使 用 709%/30% 分 层 抽 样 策略 来 对 整个 数据 集 进 行 划分 ， 
并 对 一 个 预先 定义 的 检验 限制 值 10% 来 计算 决策 精确 度 和 回溯 精确 度 。 
在 某 种 意义 下 ， 预 定义 的 10% 检 验 限 制 条 件 的 设 定 是 随意 的 ， 也 可 以 选 
择 其 他 的 限制 值 。 该 系统 对 不 同 限制 值 的 全 局 性 能 由 PR 和 累积 回溯 精 
确 度 曲线 给 出 。 我 们 将 对 以 上 实验 过 程 重 复 三 次 ， 基 于 此 得 到 保留 估 
i 




















> bp.res <- holdOut (learner ('ho.BPrule', 

+ pars=list (Threshold=0.1, 

+ statsProds=globalStats)), 
+ dataset(Insp ~ .,sales), 

+ hldSettings(3,0.3,1234,T), 

+ itsInfo=TRUE 

+ ) 


设置 函数 hldSettings() 的 第 四 个 参数 为 TRUE， 表 明 使 用 分 层 随机 抽 
样 。 其 他 参数 规定 了 重复 次 数 、 保 留 集 (hold-out) 个 案 所 占 的 百 分 
比 、 随 机 数 种 子 等 。 


本 次 实验 结果 的 总 结 如 下 : 





> Summary(bp.res) 


= Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


*Dataset :: sales 

*Learner :: ho.BPrule with parameters: 
Threshold = 0.1 
statsProds = 11.34 


*Summary of Experiment Results: 


Precision Recall avgNDTP 

avg 0.016630574 0.52293272 1.87123901 

std 0.000898367 0.01909992 0.05379945 

min 0.015992004 0.51181102 1.80971393 

max 0.017657838 0.54498715 1.90944329 

invalid 0.000000000 0.00000000 0.00000000 
结果 的 决策 精确 度 和 回调 精确 度 都 是 相当 低 的 。 平 均 只 有 52% 的 已 
知 欺诈 包含 在 用 BPrule 给 出 的 报告 欺诈 排序 的 前 10% 的 位 置 中 。 低 的 回 
漳 精 确 度 意味 着 10% 的 检验 努力 可 能 不 能 包含 所 有 的 欺诈 交易 ， 但 是 考 
虚 到 测试 集中 欺诈 的 比例 和 很 低 的 决策 精确 度 值 ， 这 是 不 正确 的 。 极 低 
的 回溯 精确 度 值 意味 着 该 方法 在 排序 的 顶部 大 部 分 放 入 的 是 unkn 或 者 ok 
报告 。 考 虑 到 NDTP 的 相对 高 分 值 ， 我 们 至 少 可 以 确定 这 些 顶 部 报告 的 
单位 价格 和 标准 价格 是 不 相同 的 。 事 实 上 ，NDTP 的 平均 值 为 1.8， 意 味 
着 同一 种 产品 报告 中 的 单位 价格 和 中 位 数 价格 大 约 为 这 些 价格 IQR (四 
位 距 ) 的 1.8 倍 。 假 定 IQR 包 括 50% 的 报告 ， 它 意味 着 这 些 交易 是 很 异 


分 
常 的 。 

















为 了 获得 PR 图 和 累积 回溯 精确 度 图 ， 我 们 需要 有 方法 在 每 一 次 保 
留 Chold-out) 重复 上 的 离 群 值 分 数 ， 以 及 真实 的 “类 ?标签 。 我 们 所 调 
用 的 函数 通过 应 用 每 一 次 迭代 (ho.BPrule0) 的 排序 方法 返回 这 些 值 作 
为 统计 量 向 量 的 属性 。 函 数 holdOut() 把 每 一 次 迭代 得 到 的 这 些 额 外 信息 
收集 在 一 个 列表 中 。 该 列表 作为 函数 holdout0 产 生 对 象 的 itsInfo 属 性 返 
回 。 为 了 获得 绘图 函数 所 要 求 的 格式 信息 ， 需 要 一 些 额 外 的 步骤 。 以 下 
代码 的 结果 即 为 显示 在 图 4-7 中 的 曲线 。 














> par (mfrow=c(1,2)) 
> info <- attr(bp.res,'itsInfo') 
> PTs.bp <- aperm(array(unlist (info) ,dim=c(length(info[[1]]),2,3)), 


+ e(1,3,2) 

+ ) 

> PReurve(PTs.bp[,,1],PTs.bp[,,2], 

+ main='PR curve',avg='vertical') 

> CRchart(PTs.bp[,,1],PTs.bp[,,2], 

+ main='Cumulative Recall curve',avg='vertical') 





第 一 条 语句 把 图 窗口 分 成 两 个 ， 这 样 可 以 并 排 显 示 两 个 可 视 化 图 
É. PREH K ater te RE — KIKA Pho. BPrule(iK lH 4 & til 
测 值 和 真实 值 信息 的 列表 。 这 个 函数 可 以 用 对 象 的 任何 属性 名 来 获取 该 
属性 的 信息 。 然 后 该 列表 被 转换 成 一 个 3 维 数组 。 第 一 维 是 测试 个 
第 二 维 是 保留 Chold-out) 过 程 的 重复 次 数 ， 第 三 维 代表 数值 的 类 型 (1 
是 预测 值 ，2 是 真实 值 )。 例 如 ， 值 PTs.bp[3，2，1] 代 表 这 是 第 三 个 个 
案 在 保留 Chold-out) 过程 的 第 二 次 迭代 的 模型 预测 值 。 函 数 aperm() 可 
以 用 来 变换 数组 的 维 数 。 如 果 理解 这 个 复合 语句 有 困难 ， 可 以 试 着 单独 




















依次 运行 每 一 个 函数 ， 碍 看 它 的 输出 结果 〈 用 取 结 果子 集 的 方法 来 避免 
输出 量 过 大 ， 因 为 有 的 输出 对 象 非常 大 )。 


PR curve Cumulative Recall curve 
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图 4-7 BPrule 方 法 的 PR 图 (AA) 和 累积 回溯 精确 度 曲 线 (A) 


两 幅 曲 线 图 都 是 对 每 次 保留 (hold-out) 过 程 得 到 的 曲线 的 垂直 平 
均 。 累 积 回 济 精确 度 曲线 给 出 了 这 个 方法 的 全 局 性 能 的 视图 。 我 们 可 以 
看 到 在 很 低 的 检验 资源 下 这 个 方法 有 大 约 40% 的 回溯 精确 度 。 但 是 ， 为 
了 达到 80% 的 回溯 精确 度 ， 大 约 需要 检验 25% 一 30% 的 报告 。 


4.4.1.2 ”局 部 离 群 值 因 子 


离 群 值 分 类 是 一 个 有 充分 研究 的 主题 。Breunig 等 (2000) 提出 了 
局 部 离 群 值 因子 (Local Outlier Factor, LOF) 系统 ， 该 方法 被 认为 是 最 


先进 的 离 群 值 排 序 法 。 这 个 系统 的 主要 思想 是 试 着 通过 估计 个 案 和 它 的 
局 部 邻 域 的 分 离 程 度 来 得 到 该 个 案 的 离 群 值 分 数 。 这 个 方法 基于 观察 值 
的 局 部 密度 。 在 低 密 度 区 域 的 个 案 被 视 为 离 群 值 。 个 案 的 密度 估计 值 是 
通过 个 案 之 间 的 距离 来 获得 的 。 作 者 定义 了 一 些 概念 并 导出 了 计算 每 个 
点 的 离 群 分 数 的 算法 。 它 们 是 1) 一 个 点 p 的 中 心 距离 概念 ， 定 义 为 该 抬 
到 第 k 个 最 近邻 点 的 距离 ，2) 个 案 p1 和 个 案 p, 之 间 的 可 到 达 距 离 ， 该 
距离 是 pi 的 中 心 距离 和 两 个 个 案 之 间距 离 的 最 大 值 ，3) 一 个 点 的 局 部 
可 到 达 距 离 ， 该 距离 反比 于 k 个 可 到 达 距 离 的 平均 值 。 一 个 个 采 的 LOF 
古 它 的 局 部 可 到 达 距 离 的 函数 。 




















本 书 的 添加 包 中 包括 了 基于 (Auna et al.，2009) 给 出 的 LOF 算 法 
的 一 个 实现 。 也 就 是 说 ， 我 们 提供 了 函数 lofactor()， 它 的 参数 是 一 个 数 
据 集 和 计算 个 案 LOF 时 用 于 指定 近邻 个 数 的 k 值 。LOF 的 实现 仅仅 限于 
数据 集 为 数值 型 变量 。 实 际 上 这 也 是 很 多 模型 算法 的 常见 限制 。 就 像 我 
们 看 到 的 那样 ， 我 们 的 数据 集 包 括 了 多 个 名 义 变 量 ， 这 意味 着 我 们 不 能 
直接 在 这 个 数据 集 上 应 用 该 函数 。 有 多 种 方法 可 以 解决 这 个 困难 。 第 一 
个 方法 改变 LOF 函 数 的 源 代码 ， 使 它 应 用 混合 模式 的 距离 。 有 多 个 距离 
函数 可 以 计算 由 不 同类 型 变量 所 描述 的 个 案 间 的 距离 。 其 中 一 个 例子 是 
添加 包 cluster 中 的 daisyO 函 数 。 另 一 个 方法 对 名 义 变 量 重新 编码 ， 使 描 
述 观测 值 的 变量 全 部 为 连续 型 变量 。 任 何 有 n 个 可 能 取 值 的 名 义 变量 可 
以 重新 编码 为 n-1 个 二 元 (0/1) 变量 。 在 我 们 的 应 用 中 这 个 方法 是 有 问 
题 的 。 比 如 变量 ID 有 6016 个 可 能 值 ， 变 量 Prod 有 4546 个 可 能 值 ， 这 就 意 

















味 厦 如 果 我 们 采用 了 这 个 策略 ， 那 么 数据 集 将 有 10566 个 变量 。 相 比 于 
原始 数据 ， 这 是 非常 充 唐 的 增加 量 。 所 以 这 个 方法 不 能 够 解决 我 们 这 里 
的 问题 。 第 三 种 方法 单独 处 理 每 个 产品 ， 束 像 用 BPrule 方 法 那样 。 这 样 
一 来 ， 不 仪 减轻 了 处理 这 个 问题 的 计算 机 要 求 ， 也 能 避免 应 用 Prod 变 

量 。 而 且 ， 考 虑 到 观测 值 之 间 的 不 同 ( 见 4.2.3.2 节 〉 ， 分 开 处 理 产 品 总 
古 一 种 看 似 可 行 的 方式 。 因 此 ， 我 们 还 要 确定 怎么 处 理 销售 人 员 信 息 

( 即 变 量 ID〉。 删 除 该 变量 意味 大 ， 我 们 认为 一 些 异常 报告 是 独立 于 它 
的 销售 人 员 的 。 这 个 假设 看 起 来 并 不 很 具 风 险 。 事 实 上 就 算 录 些 销售 人 
员 更 倾 问 于 有 欺诈 行为 ， 它 依然 会 反映 在 他 报 出 的 单位 价格 上 。 这 种 情 
况 下 ， 采 用 删除 这 两 列 《 变 量 ID 和 变量 Prod) 并 分 别 对 待 每 一 种 产品 的 
方法 比 对 变量 重新 编码 的 方法 看 起 来 更 合理 些 。 总 之 ， 我 们 对 只 用 单位 
价格 描述 的 报告 数据 集 应 用 LOF 算 法 : 




















> ho.LOF <- function(form, train, test, k, ...) { 
ntr <- nrow(train) 
all <- rbind(train, test) 
N <- nrow(all) 
ups <- split (all$Uprice,all$Prod) 
r <- list (length=ups) 
for(u in seq(along=ups) ) 
r[[u]] <- if (NROW(ups[[u]]) > 3) 
lofactor(ups[[u]],min(k,NROW(ups[[uJ]) %/% 2)) 
else if (NROW(ups[[uJ])) rep(0,NROW(ups[[u]])) 
else NULL 
all$lof <- vector (length=N) 
split(all$lof,all$Prod) <- r 
all$lof {which(! (is.infinite(all$lof) | is.nan(all$lof)))] <- 
SoftMax (all$lof [which(! (is.infinite(allf$lof) | is.nan(all$lof)))]J) 
structure (evalQOutlierRanking(test, order(all[(ntr+t1):N,'lof'], 
decreasing=T),...), 
itInfo=list (preds=ali[(ntr+1):N,'lof'], 
trues=ifelse(test$Insp=='fraud',1,0)) 
) 


二 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 二 十 


上 述 函 数 得 到 了 在 训练 集 和 测试 集 上 应 用 LOF 方 法 计算 出 的 评 佑 统 
计量 。 我 们 的 方法 是 通过 合并 训练 集 和 测试 集 ， 用 LOF 方 法 来 对 合并 后 
的 所 有 报告 进行 排序 。 从 得 到 的 排序 中 ， 我 们 选择 属于 测试 集 个 案 的 排 
序 分 数 。 我 们 可 以 只 对 测试 集 进 行 排序 ， 但 是 这 样 就 没有 用 上 训练 数据 
的 信息 。 男 一 个 只 对 训练 集 数据 排序 的 方法 也 是 没有 意义 的 ， 因 为 这 是 
无 监督 的 方法 ， 其 结果 不 能 用 来 对 测试 集 进行 预测 。 








时 数 split0) 把 全 部 数据 按照 产品 来 对 单位 价格 进行 分 割 。 分 割 的 结 
果 是 一 个 列表 ， 列 表 的 元 素 为 相应 产品 的 单位 价格 。 其 中 的 for 人 循环 对 这 
些 单位 价格 集合 进行 循环 ， 应 用 LOF 算 法 来 得 到 每 个 价格 的 一 个 离 群 值 
因子 。 这 些 因子 被 收集 在 一 个 按照 产品 排列 的 列表 Ce) 中 。 只 有 在 至 





少 有 三 个 报告 时 ， 我 们 才 应 用 LOF 方 法 ， 和 否则 所 有 数值 被 标记 为 正常 
(分 数 为 0，。 在 主 循环 之 后 ， 再 次 用 split() 函 数 把 得 到 的 离 群 值 因 

了 “添加 到 ”数据 框 al 中 的 相应 交易 中 。 下 一 条 语句 的 目的 在 于 将 离 群 值 
因子 改变 为 0 一 1。 本 书 添加 包 中 的 函数 SoftMaxO 即 为 实现 此 目的 。 这 个 
函数 把 一 群 值 “ 挤 压 ” 到 0 一 1 内 。 对 于 茶 些 交 易 ， 函 数 lofactor() 会 出 现 一 
些 Inf 和 NaN (无 穷 或 无 意义 ) 值 ， 基 于 这 个 事实 ， 我 们 要 约束 
SoftMax() 函 数 的 使 用 。 最 后 ， 得 到 排序 的 评估 分 数 ， 加 上 预测 值 和 真实 
值 一 起 ， 作 为 该 函数 的 结果 返回 。 








下 一 步 束 是 束 像 之 前 对 BPrule 方 法 那样 ， 用 一 个 保留 hold-out) 过 
程 来 获得 评价 指标 的 估计 值 。 我 们 已 经 用 了 和 之 前 一 样 的 设置 ， 特 别 是 
用 了 同一 个 随机 数 生成 器 种 子 来 确保 应 用 相同 的 数据 分 割 。 我 们 设置 
lofactor() 函 数 中 参数 k 的 值 为 7。 可 以 执行 进一步 的 实验 来 调整 这 个 参 
数 。 当 执行 以 下 指令 之 前 ， 一 条 警告 是 ， 取决 于 计算 机 人 硬件， 尽管 是 以 
分 钟 计算 ， 但 完成 下 面 的 代码 可 能 要 用 很 长 的 时 间 。 








> lof.res <- holdOut (learner ('ho.LOF', 

+ pars=list (k=7,Threshold=0.1, 

+ statsProds=globalStats)), 
+ dataset(Insp ~ .,sales), 

+ hldSettings(3,0.3,1234,T), 

+ itsInfo=TRUE 

+ ) 


LOF 方 法 的 结果 如 下 : 


> summary (lof .res) 
== Summary of a Hold Out Experiment == 


Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.LOF with parameters: 
k = 7 
Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.022127825 0.69595344 2.4631856 
std 0.000913681 0.02019331 0.9750265 
min 0.021405964 0.67454068 1.4420851 
max 0.023155089 0.71465296 3.3844572 
invalid 0.000000000 0.00000000 0.0000000 


你 可 以 观察 到 ， 对 于 109% 的 检验 限制 ， 决 策 精 确 度 和 回溯 精确 度 均 
高 于 BPrule 方 法 得 到 的 结果 。 特 别 指出 的 是 ， 回 溯 精 确 度 的 值 已 从 529% 


增加 到 69%。 此 外 ， 这 是 伴随 着 NDTP 平 均值 的 增加 (从 1.8 增 加 到 
IAS 





可 以 通过 PR 和 累积 回溯 精确 度 曲 线 得 到 一 个 更 加 全 局 的 视角 。 为 
了 更 好 地 与 BPrule 方 法 比较 ， 我 们 也 绘制 这 种 方法 的 上 述 两 条 曲线 ， 使 
用 参数 add=T， 使 得 多 条 曲线 出 现在 同一 个 图 形 上 ， 如 图 4-8 所 示 。 


Average precision 





Vv 


par (mfrow=c(1,2)) 
> info <- attr(lof.res,'itsInfo') 


v 


¢(1,3,2) 
) 
PRcurve(PTs.bp[,,1],PTs.bp[, ,2], 


avg='vertical') 
PReurve(PTs.lof[,,1],PTs.lof[,,2], 

add=T, lty=2, 

avg='vertical') 


CRchart(PTs.bp[,,1],PTs.bp[,,2], 


avg='vertical') 

CRchart (PTs.lof[,,1],PTs.lof[,,2], 
add=T,1lty=2, 
avg='vertical') 
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4-8 LOF 方 法 和 BPrule 方 法 的 PR 图 


PTs.lof <- aperm(array(unlist (info) ,dim=c(length(info[[1i]]),2,3)), 


main='PR curve’, 1lty=1,xlim=c(0,1),ylim=c(0,1), 


legend ('topright',c('BPrule','LOF') ,lty=c(1,2)) 


main='Cumulative Recall curve',1ty=1,xlim=c(0,1),ylim=c(0,1), 


legend ('bottomright',c('BPrule' ,'LOF'),1ty=c(1,2)) 


Cumulative Recall curve 
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(ŁA) 和 累积 回溯 精确 度 曲线 


CE B) 


对 PR 曲线 的 分 析 《〈 图 4-8 左 图 ) 说 明 ， 对 于 较 小 的 回溯 精确 度 值 ， 
BPrule 方 法 通常 达到 相当 高 的 决策 精确 度 。 对 于 高 于 40% 的 回溯 精确 度 
值 ， 虽 然 没 有 那么 明显 的 差异 ， 但 趋势 则 相反 。 就 检验 限 值 所 达到 的 决 
集 精 确 度 而 言 (图 4-8 的 右 图 ) ， 可 以 说 ， 对 低 于 25% 一 30% 的 检验 限 
值 ， 通 常 LOF 方 法 要 优 于 BPrule 方 法 。 对 于 高 的 检验 限 值 ， 两 者 的 差别 
就 不 是 那么 明显 了 ， 它 们 的 结果 相差 不 太 大 。 鉴 于 该 公司 的 兴趣 在 于 以 
较 低 的 检验 努力 ( 较 低 的 检验 限 值 ) 来 降低 成 本 (假设 获得 了 一 个 好 的 
回调 精确 度 ) ， 我 们 会 对 LOF 方 法 更 有 兴趣 。 事 实 上 ， 对 于 大 约 15% 一 
20% 的 检验 限 值 ， 大 约 能 侦 测 70% 一 80% 的 诈骗 行为 。 此 外 ， 我 们 应 该 
注意 到 对 于 10% 的 检验 限 值 ，LOF 方 法 的 NDTP 值 明显 高 于 BPrule 方 法 。 

















4.41.3 ”基于 聚 类 的 离 群 值 排名 





我 们 考虑 的 下 一 个 离 群 值 排名 方法 是 基于 聚 类 算法 的 结果 。 基 于 聚 
类 的 离 群 值 排名 (OR, ) 方法 (Torgo，2007) 采用 分 层 聚 类 法 获得 一 
个 给 定数 据 集 的 聚 类 树 。 聚 类 树 是 这 些 聚 类 算法 合并 过 程 的 可 视 化 表 
示 。 对 这 些 树 在 不 同 高 度 水 平 进行 切割 时 将 给 出 数据 的 不 同 聚 类 。 在 最 
低 水 平 ， 得 到 的 类 数 将 与 训练 集中 观测 值 的 个 数 相同 。 它 是 这 些 聚 类 进 
代 方 法 的 初始 解 。 然 后 该 算法 把 前 面 步骤 中 得 到 的 茶 两 个 类 合并 为 一 个 
类 。 这 一 合并 过 程 遭 循 把 更 相似 的 类 合并 在 一 起 的 原则 。 当 最 后 的 两 个 
类 合并 为 一 个 由 所 有 观测 值 组 成 的 类 时 ， 连 代 过 程 集 止 。 聚 类 树 摘 述 了 














整个 合并 的 过 程 。 基 础 包 stats 中 的 函数 hclust0) 实 现 了 这 种 类 型 聚 类 的 几 
个 变 体 。 这 个 函数 返回 的 对 象 包括 一 个 数据 结构 (merge) ， 该 结构 包 
括 每 个 合并 步骤 涉及 的 那些 个 案 的 信息 。ORu 方法 以 这 个 数据 结构 的 信 
息 为 基础 进行 下 面 的 离 群 值 排序 。 主 要 的 思想 法 是 ， 离 群 值 应 该 不 易于 
合并 ， 因 此 当 它们 最 终 被 合并 时 ， 它 们 合并 前 所 属 类 的 大 小 和 它们 被 合 
并 进去 的 类 的 大 小 应 该 相差 很 大 。 这 也 反映 了 离 群 值 和 其 他 观测 值 是 很 
不 相同 的 。 因 此 把 它们 包含 在 含有 更 多 “正常 "观测 值 的 类 中 将 明显 地 降 
低 结 果 组 的 相同 性 。 少 数 时 候 ， 离 群 值 与 其 他 观测 值 的 合并 发 生 在 初始 
阶段 ， 但 这 只 限于 类 似 的 离 群 值 。 否 则 ， 它 们 只 会 在 聚 类 过 程 的 后 期 合 
并 。 通 常 的 情况 是 与 一 个 更 大 的 类 合并 。 这 是 OR 方法 所 采用 的 总 体 思 
路 。 这 种 方法 用 下 面 方法 来 计算 每 一 个 个 案 的 离 群 值 分 数 。 对 于 每 一 个 
合并 两 个 组 (g.; 和 g,; ) 的 第 步 ， 计 算 以 下 值 








of,(x) = TO Ramey 
yi 1+ |B. 


EP, ga 是 x 所 属 的 组 ， 而 lg | 是 该 组 的 大 小 。 请 注意 ， 因 为 我 们 
感 兴 趣 的 是 较 小 的 组 ， 所 以 参与 合并 的 两 个 组 中 较 大 组 的 成 员 离 群 值 分 
数 将 被 赋 为 0。 在 分 层 聚 类 算法 的 整个 迭代 过 程 中 ， 每 个 观察 值 可 以 参 
与 多 个 合并 过 程 ， 有 时 是 较 大 组 的 成 员 ， 有 时 是 较 小 组 的 成 员 。 数 据 集 
的 每 个 个 案 的 最 终 离 群 值 分 数 由 下 式 给 出 : 








OF (tw) = max of,(x) (4-4) 


本 书 添 加 包 函 数 outliers.rankingO 用 来 实现 上 面 的 算法 。 下 面 的 函数 
使 用 ORn 方法 来 获取 测试 集中 个 案 的 离 群 值 分 数 和 通 第 的 性 能 评价 统计 


p 


> ho.ORh <- function(form, train, test, ...) { 

+ ntr <- nrow(train) 

+ all <- rbind(train,test) 

+ N <- nrow(all) 

+ ups <- split(all$Uprice,all$Prod) 

+ r <- list(length=ups) 

+ for(u in seq(along=ups)) 

+ r[[u]] <- if (NROW(ups[[u]]) > 3) 

+ outliers.ranking(ups[[u]])$prob. outliers 

+ else if (NROW(ups[[u]])) rep(0,NROW(ups[{u]])) 
+ else NULL 

+ all$orh <- vector (length=N) 

+  split(all$orh,all$Prod) <- r 

+  all$orh{which(! (is.infinite(allf$orh) | is.nan(all$orh)))] <- 
+ SoftMax(allf$orh[which(! (is.infinite(all$orh) | is.nan(all$orh)))]) 
+  structure(evalOutlierRanking(test,order(all[(ntr+1):N,'orh'], 
+ decreasing=T),...), 
+ itInfo=list (preds=all[(ntr+1):N,'orh'], 

+ trues=ifelse(test$Insp=='fraud',1,0)) 

f ) 

+ 





该 函数 与 之 前 的 LOF 方 法 很 类 似 。 我 们 再 次 使 用 这 个 方法 来 对 产品 
逐个 进行 处 理 ， 主 要 是 出 于 与 之 前 在 LOF 方 法 中 所 描述 的 原因 。 然 而 ， 
函数 outliersrankingO0 的 参数 可 以 接收 要 排序 的 观测 值 的 距离 矩阵 ， 而 不 
是 数据 集 。 这 就 是 说 ， 我 们 可 以 使 用 任何 可 以 处 理 混 合 模式 数据 的 距离 
疯 数 来 得 到 距离 矩阵 〈( 例 如， 添加 包 cluster 的 daisy0) 函 数 ) 。 但 是 ， 如 
果 你 决定 尝试 这 一 点 ， 由 于 聚 类 这 样 大 的 数据 集 将 要 求 大 量 的 内 存 和 快 
速 的 处 理 器 ， 所 以 你 将 需要 大 量 的 计算 资源 ， 如 集群 等 。 即 使 使 用 这 种 








方法 对 每 一 种 产品 单独 处 理 ， 但 在 任何 正常 的 计算 机 上 运行 下 面 全 部 保 
留 Chold-out) 实验 的 代码 肯定 需要 一 段 较 长 时 间 。 





与 LOF 方 法 类 似 ， 我 们 没有 深入 探索 ORh 方法 的 几 个 参数 值 ， 只 是 
简单 地 接受 其 默认 设置 : 


> orh.res <- holdOut(learner(‘ho.ORh', 

+ pars=list (Threshold=0.1, 

+ statsProds=globalStats)), 
+ dataset (Insp ~ .,sales), 

+ hldSettings(3,0.3,1234,T), 

+ itsInfo=TRUE 

$ ) 


对 OR 方法 的 结果 总 结 如 下 : 


> summary (orh.res) 
== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.ORh with parameters: 
Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.0220445333 0.69345072 0.5444893 
std 0.0005545834 0.01187721 0.3712311 
min 0.0215725471 0.67979003 0.2893128 
max 0.0226553390 0.70133333 0.9703665 
invalid 0.0000000000 0.00000000 0.0000000 


OR, 系统 的 决策 精确 度 和 回调 精确 度 与 BPrule 方 法 和 LOF 方 法 非常 
相似 。 对 于 平均 NDTP 值 而 言 ， 其 结果 大 大 低 于 其 他 两 个 方法 。 


该 方法 的 PR 和 味 积 回溯 精确 度 曲线 ， 以 及 以 前 得 到 的 其 他 无 监督 
方法 的 曲线 ， 如 图 4-9 所 示 。 下 面 的 代码 是 用 来 生成 这 些 图 形 。 





par (mfrow=c(1,2)) 
info <- attr(orh.res,'itsInfo') 
PTs.orh <- aperm(array(unlist (info) ,dim=c(length(info[[1]]),2,3)), 
ec 3,2) 
) 
PRcurve(PTs.bp[,,1],PTs.bp[,,2], 
main='PR curve',1lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
PReurve (PTs.lof[,,1],PTs.lof[,,2], 
add=T, 1ty=2, 
avg='vertical') 
PReurve (PTs. orh[,,1],PTs.orh[,,2], 
add=T, lty=1,col='grey’, 
avg='vertical') 
legend ('topright',c('BPrule','LOF','ORh'), 
lty=c(1,2,1),col=c('black','black','grey')) 
CRchart (PTs. bp[,,1],PTs.bpI[,,2], 
main='Cumulative Recall curve',1lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
CRchart (PTs. lof[,,1],PTs.lof[,,2], 
add=T, lty=2, 
avg='vertical') 
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CRchart (PTs. orh[,,1],PTs.orh[,,2], 
add=T, 1lty=1,col='grey', 
avg='vertical') 
legend ('bottomright',c('BPrule','LOF','ORh'), 
lty=c(1,2,1),col=c(‘black','black','grey')) 


个 V+ 中 VV 


正如 你 可 以 看 到 ， 就 囚 积 回 济 精 确 度 而 言 ，OR, 方法 的 结果 可 与 
LOF 方 法 相 比 。 然 而 ， 对 于 PR 曲线 ，OR 方法 明显 优 于 LOF 方 法 ， 以 较 
小 的 优势 超过 BPrule 方 法 。 


PR curve 


Average precision 
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图 49 OR 、LOF 以 及 BPrule 方 法 的 PR 图 ( 左 图 ) 和 累积 回溯 精确 度 
曲线 (EE) 


4.4.2 有 监督 方法 


在 本 节 中 我 们 探讨 一 些 解决 本 章 案例 的 有 监督 分 类 方法 。 考 虑 到 我 
们 的 目标 是 获得 一 组 交易 报告 的 排序 ， 我 们 将 有 约束 地 选择 模型 。 我 们 
将 只 使 用 能 够 产生 概率 分 类 的 模型 。 对 于 每 个 测试 案例 ， 这 些 模型 将 输 
出 它 属于 每 一 个 可 能 类 的 概率 。 这 些 信息 将 使 我 们 能 够 根据 测试 集 案例 
属于 “目标 ”类 〔 即 欺诈 报告 的 概率 来 对 它们 进行 排序 。 


在 描述 我 们 将 要 用 到 的 一 些 具体 分 类 算法 之 前 ， 先 讨论 数据 集 所 特 
有 的 问题 : 类 标签 分 布 失衡 。 


4.4.2.1 类 失衡 问题 


我 们 数据 集 的 正常 报告 和 其 诈 报 告 的 比例 很 不 平衡 。 后 者 明显 是 少 
数 ， 大 约 只 占 到 检验 报告 《 即 有 监督 的 个 案 ) 的 8.1%。 这 种 类 型 的 问题 
可 以 导致 预测 模型 建 模 过 程 中 的 各 种 困难 。 首 先 ， 它 们 需要 合适 的 评价 
指标 ， 因 为 众所周知 标准 的 精确 度 〈 或 者 它 的 对 立 面 ， 错 误 率 ) 在 这 些 
领域 是 明显 不 够 的 。 事 实 上 ， 在 我 们 的 应 用 中 ， 如 果 预 测 所 有 报告 为 正 
常 报告 将 会 很 容易 地 获得 90% 左 右 的 决策 精确 度 。 由 于 该 类 占 大 多 数 ， 
所 以 它 将 给 我 们 显得 非常 高 的 决策 精确 度 水 平 。 类 失衡 导致 的 妨 一 个 问 
题 是 ， 它 会 强烈 地 影响 学 习 算 法 的 性 能 ， 算 法 由 于 少数 类 缺乏 统计 文 持 
而 忽视 它们 。 如 果 少 数 类 恰恰 是 最 相关 的 类 ， 就 像 我们 的 案例 一 样 ， 那 
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它 
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么 失衡 导致 的 问题 尤其 严重 。 





有 多 种 有 助 于 学 习 算 法 克服 类 失衡 问题 的 技术 。 它 们 一 般 分 为 两 
类 : 1) 偏 置 学 习 过 程 的 方法 ， 它 应 用 特定 的 对 少数 类 更 敏感 的 评价 指 
标 ; 2) 用 抽样 方法 来 操作 训练 数据 ， 从 而 改变 类 的 分 布 。 我 们 尝试 使 
用 的 有 监督 分 类 方法 属于 第 二 类 方法 。 





有 多 种 抽样 方法 用 于 改变 数据 集中 类 的 失衡 。 一 种 抽样 方法 是 欠 采 
样 法 ， 它 从 多 数 类 中 选择 一 小 部 分 个 案 ， 并 把 它们 和 少数 类 个 案 一 起 构 
成 一 个 有 更 加 平衡 的 类 分 布 的 数据 集 。 另 一 种 是 过 采样 方法 ， 它 采用 男 
外 的 工作 模式 ， 使 用 某 些 进程 来 复制 少数 类 个 案 。 有 许多 上 述 两 种 采样 
方法 的 变 体 。 一 个 成 功 的 例子 是 SMOTE 方 法 (Chawla etal., 2002) 。 
这 种 方法 的 思路 是 用 少数 类 个 案 的 最 近邻 居 来 人 工 产生 少数 类 的 个 案 。 
此 外 ， 多 数 类 的 个 案 仍然 采用 欠 抽 样 方法 。 这 样 就 得 到 了 一 个 更 加 平衡 
的 数据 集 。 本 书 添加 包 中 的 函数 SMOTE() 已 经 实现 了 这 种 抽样 方法 。 基 
于 失衡 的 样本 ， 该 函数 生成 一 个 有 更 加 平衡 类 分 布 的 新 数据 集 。 下 面 的 
代码 给 出 了 它 的 一 个 简单 示例 : 








> data(iris) 

> Gata <- trisl,. Ces. .2 Wi 

> data$Species <- factor(ifelse(data$Species == "setosa", "rare", 
+ "common") ) 

> newData <- SMOTE(Species ~ ., data, perc.over = 600) 

> table (newData$Species) 


common rare 
600 350 


这 个 小 例子 使 用 iris 数 据 创 建 一 个 有 两 个 预测 变量 (为 易于 可 视 
化 ) 和 一 个 新 的 目标 变量 的 人 工 数据 集 ， 它 有 失衡 的 类 分 布 。 该 代码 用 
参数 perc.over 的 值 600 调 用 函数 SMOTE()， 这 意味 着 将 为 初始 数据 集 少 
数 类 的 每 个 个 案 产 生 6 个 新 样本 。 这 些 新 样本 采用 对 初始 个 案 和 其 最 近 
邻居 默认 情况 下 为 5〉 的 某 种 形式 的 随机 插值 方式 产生 。 我 们 的 实现 
采用 混合 模式 的 距离 函数 ， 所 以 可 以 在 SMOTE0O 函 数 中 应 用 同时 售 有 连 
续 变 量 和 名 义 变 量 的 数据 集 。 





可 以 通过 绘制 原始 数据 集 和 SMOTE 方 法 得 到 数据 集 ， 从 而 了 解 该 
方法 。 下 面 代码 的 结果 如 图 4-10 所 示 。 


> par(mfrow = c(1, 2)) 
> plot(data[, 1], data[, 2], pch = 19 + as.integer(data[, 3]), 


+ main = "Original Data") 
> plot(newData[, 1}, newData[, 2], pch = 19 + as.integer(newDatal[, 
+ 3]), main = "SMOTE'd Data") 

在 有 监督 分 类 算法 的 实验 中 ， 我 们 将 应 用 SMOTE 方 法 给 出 的 平衡 


训练 集 来 尝试 不 同方 法 的 变 体 。 


Original Data SMOTE'd Data 
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图 410 用 SMOTE 方 法 产生 少数 类 的 个 案 
类 失衡 的 参考 文献 


类 失衡 是 一 个 充分 研究 的 课题 。 在 几 个 这 一 特定 主题 的 研讨 会 有 这 
个 课题 研究 的 例子 ， 如 美国 AAAI ” 2000 和 ICMI 2003 的 失衡 数据 集 研 
讨 会 ， 或 SIGKDD 的 失衡 数据 集 学 习 算 法 中 的 特殊 问题 (Chawla et al., 
2004) > Chawla (2005) 给 出 了 一 个 很 好 的 现 有 工作 的 概述 。 失 衡 类 影 
响 了 预测 模型 的 多 个 相关 主题 。 例 子 包 括 预测 模型 的 评价 (例如 ， 
Provost 和 Fawcett (1997, 2001) ; Provost etal (1998) ) ， 或 成 本 敏感 
学 习 (例如 ，Domingos (1999) ; Drummond 和 Holte (2006) ; 
Elkan (2001) ) 。 关 于 类 失衡 的 采样 方法 ， 有 些 参 考 文献 包括 Kubat 和 


Matwin (1997) , Japkowicz (2000) 以 及 Weiss 和 Ptovost (2003) 。 特 别 


是 SMOTE 方 法 的 主要 参考 文献 是 Chawla et al. (2002) 和 Chawla et al. 
(2003) 。 


44.2.2 ”简单 贝 叶 斯 方法 





简单 贝 叶 斯 (Naive Bayes) 方法 是 基于 贝 叶 斯 定理 的 一 种 统计 分 类 
方法 ， 该 理论 应 用 到 预测 变量 之 间 独 立 这 一 很 强 的 假设 条 件 。 这 些 假 设 
在 实际 问题 中 是 很 难 成 立 的 ， 所 以 该 方法 名 为 “简单 ”。 然 而 ， 访 方法 还 
是 很 成 功 地 应 用 于 大 量 的 实际 问题 。 





p(a |B) -PŒ | A) P(A) 
贝 叶 斯 定理 假 PUB) o HA DUNS APS by A 


个 定理 来 计算 给 定 测试 集 个 案 条 件 下 的 类 概率 ; 
P(c)P(X, eX |€) 


P(c |X, pega, ) = (4-5) 


这 里 c 是 一 个 类 ，X1 ，.……. ，X 是 给 定 测 试 集 的 预测 变量 的 观测 
值 。 


BEEP Co) 可 以 视 为 类 c 的 先 验 预期 ， 而 P(X1 ，.…… `» Xp lo 则 
是 在 给 定 类 c 的 条 件 下 测试 个 案 的 似 然 概率 。 最 后 ， 分 母 是 观测 到 的 证 
据 的 概率 。 由 于 分 母 对 所 有 类 都 是 常数 ， 所 以 决策 仅仅 取决 于 方程 中 的 
分 子 。 应 用 条 件 概 率 的 统计 定义 和 预测 变量 间 独 立 的 条 件 假 设 〈 简 单 
的 ) ， 推 寻 出 分 式 中 的 分 子 为 : 





CR 人 二 | (4-6) 


简单 贝 叶 斯 方法 用 训练 集 样 本 的 相对 频率 来 估计 这 些 概率 。 应 用 这 
些 佑 计 值 ， 该 方法 按照 式 (4-5) 来 输出 每 一 个 测试 个 案 的 类 概率 。 


R 有 多 个 简单 贝 叶 斯 方法 的 实现 。 我 们 将 应 用 添加 包 e1071 中 的 函数 
naiveBayes()。 添 加 包 klaR (Weihs etal., 2005) 也 包含 了 贝 叶 斯 分 类 的 
实现 ， 同 时 还 提供 了 有 趣 的 可 视 化 函数 。 


下 面 的 函数 用 简单 贝 叶 斯 方法 得 到 测试 集 报告 的 离 群 值 排 序 分 数 。 
它 应 用 给 定 的 训练 集 样本 中 检验 过 的 报告 来 得 到 简单 贝 叶 斯 分 类 模型 。 
通过 估计 属于 类 fraud 的 概率 来 得 到 离 群 值 排序 : 


> nb <- function(train, test) { 

+ require(e1071, quietly = T) 

+ sup <- which(train$Insp != “unkn") 

+ data <- train[sup, c("ID", "Prod", "Uprice", "Insp")] 

+ data$Insp <- factor(data$Insp, levels = c("ok", "fraud")) 
+ model <- naiveBayes(Insp ~ ., data) 

+ preds <- predict(model, test{, c("ID", "Prod", "Uprice", 
+ “Insp")], type = "raw") 

+ return (list (rankOrder = order(preds[, "fraud"], decreasing = T), 
+ rankScore = preds[{, "fraud"])) 

we 


下 面 的 函数 将 被 保留 “hold-out) 例 程 调 用 ， 得 到 简单 贝 叶 斯 预测 
的 选 定 的 统计 评价 指标 : 


> ho.nb <- function(form, train, test, ...) { 


+ res <- nb(train,test) 

+ structure(eval0utlierRanking(test,res$rankOrder,...), 

= itInfo=list (preds=res$rankScore, 

+ trues=ifelse(test$Insp=='fraud',1,0) 
+ ) 

+ ) 

+} 


最 后 ， 调 用 函数 holdOut()， 采 用 和 前 面 无 监督 模型 相同 的 设置 来 对 
这 个 模型 进行 实验 : 


> nb.res <- holdOut(learner(‘ho.nb', 

+ pars=list(Threshold=0.1, 

+ statsProds=globalStats)), 
+ dataset(Insp ~ .,sales), 

+ hidSettings(3,0.3,1234,T), 

+ itsInfo=TRUE 

+ ) 


对 于 10% 的 检验 努力 ， 简 单 贝 叶 斯 模型 的 结果 如 下 : 


> summary (nb.res) 


== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.nb with parameters: 
Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.013715365 0.43112103 0.8519657 
std 0.001083859 0.02613164 0.2406771 
min 0.012660336 0.40533333 0.5908980 
max 0.014825920 0.45758355 1.0650114 
invalid 0.000000000 0.00000000 0.0000000 





得 到 的 分 数 大 大 低 于 前 面 用 无 监督 方法 得 到 的 最 优 分 数 。 


下 面 我 们 绘制 和 前 面 一 样 的 曲线 ， 以 得 到 该 模型 性 能 的 整体 视图 。 
我 们 把 简单 贝 叶 斯 方法 和 最 好 的 无 监督 方法 ，ORh ， 进 行 比较 : 





> par(mfrow=c(1,2)) 


info <- attr(nb.res,'itsInfo') 

PTs.nb <- aperm(array(unlist (info) ,dim=c(length(info[[1]]),2,3)), 
c(1,3,2) 
) 


PReurve(PTs.nb[{,,1],PTs.nb[,,2], 
main='PR curve',1ty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
PReurve(PTs.orh[,,1],PTs.orh[,,2], 
add=T, lty=1,col='grey', 
avg='vertical') 
legend ('topright',c('NaiveBayes','ORh'), 
lty=1,col=c('black','grey')) 
CRchart (PTs.nb[,,1],PTs.nb[,,2], 
main='Cumulative Recall curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
CRchart (PTs.orh[{,,1],PTs.orh[,,2], 
add=T, lty=1,col="grey', 
avg='vertical') 
legend ('bottomright',c('NaiveBayes','ORh'), 
lty=1,col=c('black' ,'grey')) 
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图 4-11 所 示 的 图 形 表 明 简 单 贝 叶 斯 方法 明显 不 如 ORn 方法 好 。 两 个 
图 形 都 说 明 后 者 在 所 有 的 情况 下 都 优 于 前 者 。 





导致 简单 贝 叶 斯 方法 性 能 差 的 一 个 可 能 原因 是 问题 的 类 失衡 。 
4.4.2.1 节 给 出 了 几 个 解决 类 失衡 问题 的 方法 ， 特 别 是 SMOTE 算 法 。 下 面 
通过 SMOTE 来 获得 一 个 训练 集 ， 然 后 再 应 用 贝 叶 斯 分 类 方法 。 


下 面 的 函数 和 之 前 函数 的 主要 不 同 之 处 在 于 下 面 的 函数 对 函数 
naiveBayes() 的 调用 ， 这 里 用 了 一 个 修改 过 的 训练 集 : 


> nb.s <- function(train, test) { 

+ require(e1071, quietly = T) 

+ sup <- which(train$Insp != "unkn") 

+ data <- train[sup, c("ID", “Prod", “Uprice", “Insp")] 

+ data$Insp <- factor(data$Insp, levels = c("ok", "fraud")) 

+ newData <- SMOTE(Insp ~ ., data, perc.over = 700) 

+ model <- naiveBayes(Insp ~ ., newData) 

+ preds <- predict(model, test{, c("ID", "Prod", "Uprice", 

+ "Insp")], type = "raw") 

+ return(list(rankOrder = order(preds[, "fraud"], decreasing = T), 
+ rankScore = preds[, "fraud"])) 

+ 


} 
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图 411 简单 贝 叶 斯 方法 和 OR 方法 的 PR 图 (AB) 和 累积 回溯 精确 
ZHR (EB) 


下 面 的 语句 获得 对 简单 贝 叶 斯 SOMTE 版 本 模型 的 保留 Chold-out) 
估计 : 


> ho.nbs <- function(form, train, test, ...) { 

+ res <- nb.s(train,test) 

+ structure (evalOutlierRanking(test,res$rankOrder,...), 

+ itInfo=list (preds=res$rankScore, 

+ trues=ifelse(test$Insp=='fraud', 1,0) 
+ ) 

+ 
+ 


} 


> nbs.res <- holdOQut(learner(‘ho.nbs', 

+ pars=list (Threshold=0.1, 

- statsProds=globalStats)), 
+ dataset (Insp ~ .,sales), 

+ hldSettings (3,0.3,1234,T), 

+ itsInfo=TRUE 

十 ) 


对 于 10% 的 检验 努力 ， 这 个 版 本 的 简单 册 叶 斯 模型 的 结果 如 下 : 


> summary (nbs.res) 


== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.nbs with parameters: 
Threshold = 0.1 
statsProds = 11.34 

* Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.014215115 0.44686510 0.8913330 
std 0.001109167 0.02710388 0.8482740 
min 0.013493253 0.43044619 0.1934613 
max 0.015492254 0.47814910 1.8354999 
invalid 0.000000000 0.00000000 0.0000000 


这 些 结果 和 “正常 ”的 简单 贝 叶 斯 方法 几乎 相差 不 大 。 得 分 仅仅 稍微 
好 一 些 ， 仍 然 和 无 监督 模型 的 最 好 结果 相差 很 远 。 它 看 起 来 尽管 用 
SMOTE 方 法 对 少数 类 进行 了 过 采样 ， 但 简单 贝 叶 斯 方法 仍然 不 能 正确 
预测 哪些 报告 是 有 欺诈 的 。 和 前 面 一 样 ， 下 面 绘制 这 个 方法 的 两 个 曲线 
图 来 得 到 该 方法 全 局 性 能 的 全 局 视角 。 


> par(mfrow=c(1,2)) 
info <- attr(nbs.res,'itsInfo') 
PTs.nbs <- aperm(array(unlist (info) ,dim=c(length(info[{1]]),2,3)), 
c(1,3,2) 
) 
PReurve(PTs.nb{,,1],PTs.nb[,,2], 
main='PR curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
PReurve(PTs.nbs[,,i],PTs.nbs[,,2], 
add=T, lty=2, 
avg='vertical') 
PReurve(PTs.orh{,,1],PTs.orh[,,2], 
add=T, lty=1,col='grey', 
avg='vertical') 
legend ('topright',c('NaiveBayes','smoteNaiveBayes','ORh'), 
lty=c(1,2,1),col=c('black','black','grey')) 
CRchart (PTs.nb[,,1],PTs.nb[,,2], 
main='Cumulative Recall curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
CRchart (PTs.nbs[,,1],PTs.nbs[,,2], 
add=T, lty=2, 
avg='vertical') 
CRchart (PTs.orh[,,1],PTs.orh[,,2], 
add=T, lty=1,col='grey', 
avg='vertical') 
legend ('bottomright',c('NaiveBayes' ,'smoteNaiveBayes','ORh'), 
lty=c(1,2,1),col=c('black','black','grey')) 
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图 4-12 确 认 了 这 个 SMOTE 版 本 的 简单 贝 叶 斯 方法 令 人 失望 的 结 
果 。 事 实 上 ， 它 说 明 与 OR 方法 相 比 ， 它 和 “标准 ”简单 贝 叶 斯 方法 有 同 


样 差 的 结果 ， 而 且 它 的 性 能 总 是 不 如 标准 的 贝 叶 斯 方法 好 。 


基于 这 些 结果 ， 读 者 可 能 问 ， 这 里 为 什么 没有 和 前 面 的 无 监督 方法 
一 样 ， 按 照 独 立 的 产品 来 建立 模型 ， 也 许 这 就 是 问题 所 在 呢 。 作 为 练 
习 ， 你 可 以 按照 这 种 思路 来 运行 简单 贝 叶 斯 模型 。 你 需要 做 的 就 是 按照 
前 面 无 监督 模型 中 代码 所 做 的 ， 按 照 产 品 来 分 割 交 易 ， 然 后 应 用 简单 贝 
叶 斯 模型 。 如 果 你 进行 这 个 练习 ， 你 将 过 到 的 一 个 额外 困难 是 有 太 少 的 
产品 监督 报告 。 事 实 上 ， 即 使 没有 有 标记 这 一 限制 ， 我 们 还 是 可 以 看 到 
多 个 产品 有 太 少 的 交易 。 如 果 加 上 了 有 标记 的 交易 这 一 限制 条 件 ， 这 个 
问题 肯定 会 更 严重 。 
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简单 贝 叶 斯 方法 的 参考 文献 


简单 贝 叶 斯 方法 是 许多 研究 领域 很 有 名 的 分 类 算法 。 该 主题 的 其 他 
参考 资料 包括 Domingos 和 Pazzani (1997) 的 文章 ，Rish (2001) 的 文 


章 ，Hand 和 Yu (2001) 的 文章 以 及 Kononenko (1991) 的 文章 。 
4.4.2.3 AdaBoost 方 法 


AdaBoost 方 法 (Freund and Shapire, 1996) 是 属于 组 合 方法 的 一 种 
学 习 算 法 。 事 实 上 ， 对 于 这 种 类 型 的 算法 ， 它 们 的 预测 值 是 通过 对 一 
基本 模型 的 预测 值 进 行 某 种 形式 的 组 合 而 形成 的 。AdaBoost 方 法 应 用 一 
种 自 适应 增强 方法 来 得 到 一 组 基本 模型 。 假 如 它 比 随机 分 类 器 好 ， 那 么 
增强 方法 是 一 种 常见 的 提高 基本 算法 性 能 的 方法 。AdaBoost 模 型 是 通过 
序 贯 方式 来 获取 的 。 序 列 的 每 一 个 新 成 员 都 是 通过 提高 序列 中 前 一 个 模 
型 的 误差 率 来 获得 的 。 它 通过 一 种 加 权 模 式 来 提高 模型 性 能 它 增加 被 
前 一 个 模型 误 分 类 的 个 案 的 权重 。 这 意味 着 基本 模型 用 于 不 同 分 布 的 训 
练 集 数 据 。 经 过 以 上 过 程 的 几 次 迭代 ， 结 果 是 一 组 在 不 同 训 练 集 数 据 上 
的 基本 模型 。 这 个 组 合 可 以 用 于 获得 原始 数据 的 测试 个 案 的 预测 值 。 对 
单个 基本 模型 的 预测 值 进行 加 权 平 均 就 可 以 得 到 组 合 预 测 值 。 权 重 的 定 
义 方式 是 ， 最 大 的 权重 赋 给 序列 中 最 后 得 到 的 模型 (理论 上 最 小 误差 的 
模型 ) 。 





























AdaBoost 应 用 的 加 权 方 式 对 于 类 分 布 失 衡 的 学 习 算 法 很 有 意义 。 即 


使 在 初始 的 和 欠 代 中 ， 也 有 少数 个 案 的 类 被 模型 忽略 ， 捷 们 的 权重 将 会 增 
加 ， 模 型 “被 迫 ” 学 习 它们 。 理 论 上 ， 这 将 导致 得 到 的 组 合 模型 能 更 精确 


地 预测 这 些 稀有 个 案 。 


AdaBoost.M1 是 AdaBoost 方 法 的 一 个 特殊 实现 。 它 用 具有 少数 结 点 
的 回归 树 作为 基本 模型 。 添 加 包 adabag (Cortes et al.，2010) 中 的 函数 
adaboost.M10 实 现 了 该 方法 。 不 季 的 是 ， 该 模型 提供 的 predict 方 法 不 能 
给 出 类 概率 。 对 我 们 的 案例 而 言 ， 这 是 一 个 严重 的 限制 。 如 前 所 述 ， 我 
们 需要 这 些 概率 值 ， 因 为 我 们 要 用 每 个 报告 属于 类 fraud 的 概率 来 得 到 离 
群 值 排 序 。 因 此 ， 我 们 这 里 不 能 应 用 这 个 AdaBoost.M1 算 法 的 实现 。 到 
本 书写 作 时 ， 上 面 的 函数 是 唯一 的 AdaBoost.M1 算 法 的 R 实 现 。 然 而 ， 
我 们 可 以 选择 Weka 中 数据 挖掘 软件 。Weka 是 一 个 数据 挖 气 和 机 器 学 习 
的 开源 软件 。 这 款 优秀 的 软件 提供 了 很 多 具有 友好 用 户 界面 的 学 习 算 
法 。 与 R 相 比 ， 它 提供 了 R 中 所 没有 的 多 个 算法 ， 同 时 它 有 易于 应 用 的 
漂亮 用 户 界面 。 另 一 方面 ，R 在 软件 开发 、 开 发 协议 方面 有 更 好 的 灵活 
性 ， 并 且 它 有 适用 于 更 多 研究 领域 的 建 模 工具 。 由 于 R 的 添加 包 
RWeka (Hornik etal., 2009) ， 我 们 才 可 以 在 R 内 应 用 Weka 软 件 的 大 部 
分 功能 。 如 果 计 算 机 上 安装 有 Java 软 件 ， 那 么 在 安装 该 添加 包 的 同时 也 
在 该 计算 机 上 安装 Weka 软 件 。 如 果 没 有 安装 Java 软 件 ， 那 么 安装 过 程 
报错 并 明确 给 出 如 何 做 的 指示 。 我 们 强烈 建议 安装 完 该 添加 包 后 ， 要 
阅读 它 的 帮助 文档 以 了 解 RWeka 可 以 应 用 哪些 方法 。 




















会 
会 


添加 包 RWeka 的 函数 AdaBoostM10 通 过 Weka 实 现 了 AdaBoost.M1 分 
类 模型 。 与 添加 包 adabag 的 实现 相反 ， 该 算法 的 predict 方 法 可 以 输出 类 
概率 ， 因 此 可 以 用 它 来 得 到 我 们 问题 中 的 离 群 值 排序 。 默 认 情 况 下 ， 
Weka 的 实现 用 决策 桩 为 基本 模型 ， 决 策 桩 是 一 类 特殊 的 分 类 树 ， 它 仅 
有 一 个 单独 的 测试 结 点 。 这 个 默认 值 和 其 他 设置 都 是 函数 的 参数 ， 如 有 
必要 都 可 以 修改 。 函 数 WOWO0O 允 许 你 检查 一 个 特定 的 Weka 算 法 有 哪些 
参数 。 下 面 是 该 函数 在 我 们 的 目标 模型 中 应 用 的 一 个 例子 : 





> library (RWeka) 
> WOW(AdaBoostM1) 


= 


Percentage of weight mass to base training on. (default 
100, reduce to around 90 speed up) 

Number of arguments: 1. 

Use resampling for boosting. 

Random number seed. (default 1) 

Number of arguments: 1. 

Number of iterations. (default 10) 

Number of arguments: 1. 

If set, classifier is run in debug mode and may output 
additional info to the console 

Full name of base classifier. (default: 
weka.classifiers.trees.DecisionStump) 

Number of arguments: 1. 


If set, classifier is run in debug mode and may output 
additional info to the console 


当 调 用 相应 的 函数 时 ， 可 以 通过 参数 control 和 函数 Weka_control0 对 
一 些 参 数值 进行 改变 。 下 面 是 对 著名 的 数据 集 iris， 应 用 函数 
AdaBoostM1() 的 一 个 示例 : 





> data(iris) 

> idx <- sample(150, 100) 

> model <- AdaBoostM1(Species ~ .,iris[idx,], 

+ control=Weka_control(I=100)) 
> preds <- predict (model, iris[-idx,]) 

> head (preds) 


[1] setosa setosa setosa setosa setosa setosa 
Levels: setosa versicolor virginica 


> table(preds, iris [-idx,'Species'] ) 


preds setosa versicolor virginica 
setosa 19 0 0 
versicolor 0 13 1 
virginica 0 2 15 


> prob.preds <- predict (model, iris[-idx,],type='probability') 
> head (prob. preds) 


setosa versicolor virginica 
0.9999942 5.846673e-06 2.378153e-11 
0.9999942 5.846673e-06 2.378153e-11 
0.9999942 5.846673e-06 2.378153e-11 
0.9999942 5.846673e-06 2.378153e-11 
10 0.9999942 5.846673e-06 2.378153e-11 
12 0.9999942 5.846673e-06 2.378153e-11 


ONAN 


这 个 小 例子 也 说 明了 如 何 用 该 模型 获得 分 类 概率 。 


对 于 离 群 值 排序 问题 ， 我 们 现在 准备 了 应 用 这 类 模型 的 必要 函数 。 
与 简单 贝 叶 斯 模型 一 样 ， 我 们 在 所 有 交易 上 应 用 AdaBoost.M1 方 法 ， 而 
不 是 单个 产品 。 下 面 的 函数 得 到 给 定 训练 集 和 测试 集 的 排序 报告 : 








> ab <- function(train,test) { 

+ yrequire(RWeka,quietly=T) 

+ sup <- which(train$Insp != 'unkn') 

+ data <- train[{sup,c('ID','Prod','Uprice','Insp')] 

+  data$Insp <- factor(data$Insp, levels=c('ok','fraud')) 

+ model <- AdaBoostMi(Insp ~ .,data, 

+ control=Weka_control (I=100)) 

+ preds <- predict(model,test[,c('ID','Prod','Uprice','Insp')], 
+ type='probability') 

+ yreturn(list (rankOrder=order (preds[,'fraud'] ,decreasing=T), 
+ rankScore=preds[,'fraud']) 

+ ) 

+ } 


在 保留 Chold-out) 例 程 中 调用 的 函数 : 


> ho.ab <- function(form, train, test, ...) { 

+ res <- ab(train,test) 

+ structure(evalOutlierRanking(test,res$rankOrder,...), 

+ itInfo=list (preds=res$rankScore, 

+ trues=ifelse(test$Insp=='fraud', 1,0) 
+ ) 

+ ) 

+ } 


最 后 ， 给 出 运行 保留 〈hold-out) 实验 的 代码 : 


> ab.res <- holdOut(learner(‘ho.ab', 

+ pars=list (Threshold=0.1, 

+ statsProds=globalStats)), 
+ dataset(Insp ~ .,sales), 

+ hldSettings (3,0.3,1234,T), 

+ itsInfo=TRUE 

+ ) 


对 于 10% 的 检验 努力 ，AdaBoost 模 型 的 结果 如 下 : 


> summary (ab. res) 


== Summary of a Hold Out Experiment == 


Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.ab with parameters: 
Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 
Precision Recall avgNDTP 
avg 0.0220722972 0.69416565 1.5182034 
std 0.0008695907 0.01576555 0.5238575 
min 0.0214892554 0.68241470 0.9285285 
max 0.0230717974 0.71208226 1.9298286 
invalid 0.0000000000 0.00000000 0.0000000 


这 些 结果 属于 目前 得 到 的 最 好 结果 之 一 。 事 实 上 ， 与 LOF 和 OR 得 
到 的 最 好 结果 相 比 ， 这 里 的 结果 仍然 很 不 错 。 另 外 ， 我 们 注意 到 这 个 模 
型 仅仅 应 用 给 定 报 告 的 很 小 部 分 (检验 过 的 报告 》 来 得 到 它们 的 排序 。 


尽管 如 此 ， 它 达到 了 稳健 的 回溯 精确 度 值 69% 和 一 个 很 好 的 平均 NDTP 
值 1.5。 





下 面 的 代码 得 到 PR 曲线 和 累积 回溯 精确 度 曲 线 : 


> par(mfrow=c(1,2)) 
info <- attr(ab.res,'itsInfo') 
PTs.ab <- aperm(array(unlist (info) ,dim=c(length(info[[1]]),2,3)), 
c(1,3,2) 
) 
PReurve(PTs.nb[,,1],PTs.nb[,,2], 
main='PR curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
PReurve(PTs.orh[,,1],PTs.orh[,,2], 
add=T, 1lty=1,col="'grey', 
avg='vertical') 
PReurve(PTs.ab[,,1],PTs.ab[,,2], 
add=T, 1lty=2, 
avg='vertical') 
legend ('topright',c('NaiveBayes' ,'ORh','AdaBoostM1'), 
lty=c(1,1,2),col=c('black','grey','black')) 
CRchart(PTs.nb[{,,1],PTs.nb[,,2], 
main='Cumulative Recall curve',1lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
CRchart (PTs. orh[,,1],PTs.orh[,,2], 
add=T, lty=1,col='grey', 
avg='vertical') 
CRchart (PTs.ab[,,1],PTs.ab[,,2], 
add=T, lty=2, 
avg='vertical') 
legend ('bottomright',c('NaiveBayes','ORh','AdaBoostM1'), 
lty=c(1,1,2),col=c(‘black','grey','black')) 
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图 4-13 也 确认 了 AdaBoost,.M1 算 法 的 优秀 性 能 ， 特 别 是 累积 回溯 精 
确 度 。 该 曲线 显示 对 于 大 多 数 的 资源 限制 水 平 ，AdaBoost.M1 方 法 的 分 
数 和 OR 方法 得 到 的 分 数 匹 配 。 就 PR 曲线 而 言 ， 尤 其 是 对 低 水 平 的 回 
漳 精 确 度 值 ，AdaBoostMI1 方 法 的 性 能 不 是 那么 吸引 人 。 然 而 ， 对 于 较 
高 的 回溯 精确 度 值 ， 它 明显 地 与 我 们 目前 得 到 的 最 好 的 决策 精确 度 匹 
配 。 而 且 ， 我 们 注意 到 ， 这 里 较 高 的 回 济 精 确 度 水 平 恰恰 是 我 们 的 应 用 
所 需要 的 。 








总 之 ， 对 我 们 的 应 用 而 言 ，AdaBoost.M1 方 法 是 一 个 很 有 竞争 力 的 
模型 。 尽 管 存在 类 失衡 问题 ， 但 该 组 合 方法 给 出 了 具有 最 好 性 能 的 产品 
排序 。 


Cumulative Recall curve 


Average precision 
Average recall! 





0.0 0.2 0.4 0.6 0.8 1.0 


Average recall Average rate of positive predictions 


图 413 简单 贝 叶 斯 方法 、OR 方法 和 AdaBoostM1 方 法 的 PR 图 (Æ 
A) 和 累积 回溯 精确 度 曲 线 〈 右 图 ) 


增强 方法 的 参考 文献 


AdaBoostM1 算 法 是 更 广泛 增强 类 算法 的 一 个 例子 ， 该 类 算法 应 用 
较 差 学 习 算 法 〈 比 随机 猜测 稍 好 ) 的 组 合 来 获得 较 好 的 预测 性 能 。 这 类 
算法 的 参考 资料 是 Freund 和 Shapire (1996) 的 论文 。 其 他 重要 的 增强 方 


法 的 历史 文献 是 Shapire (1990) 和 Freund (1990) 的 文章 。 有 些 重要 的 


分 析 可 以 在 Breiman (1998) . Friedman (2002) 和 Ritsch 等 (2001) 的 
工作 中 找到 。 可 以 在 Hastie 等 (2001) 的 书籍 的 第 10 章 找到 有 关 增 强 方 
法 的 很 好 描述 。 


[1] http://www.cs.waikato.ac.nz/ml/weka/. 
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本 市 插 述 尝试 同时 使 用 检验 的 和 没有 检验 的 报告 来 得 到 侦 测 欺诈 报 
告 的 分 类 模型 。 这 意味 着 我 们 需要 茶 种 形式 的 半 监 督 分 类 模型 (参见 


自我 训练 模型 (例如 ，Rosenberg 等 (2005) ; 

Yarowsky (1995) ) 是 一 个 众所周知 的 半 监 督 分 类 形式 。 该 方法 先 用 给 
定 标记 的 个 案 来 建立 一 个 初始 的 分 类 器 。 然 后 应 用 这 个 分 类 器 来 预测 给 
定 训 练 集中 未 标记 的 个 案 。 将 分 类 器 中 有 较 高 置信 度 的 预测 标签 所 对 应 
的 个 案 和 预测 的 标签 一 起 加 入 到 有 标记 的 数据 集中 。 在 这 个 新 的 数据 集 
上 我 们 得 到 一 个 新 的 分 类 器 ， 继 续 进行 这 个 过 程 ， 直 到 达到 某 个 收敛 准 
则 时 迭代 过 程 才 停止 。 只 要 能 输出 预测 的 置信 度 信 息 ， 那 么 任何 基本 分 
类 算法 都 可 运用 该 方法 。 这 与 4.4.3 节 描述 的 两 个 分 类 器 的 类 概率 相似 。 
自我 训练 方法 有 三 个 相关 的 参数 : 1) 基本 训练 模型 ，2) DREGE 
值 ， 它 用 来 确定 哪些 个 案 加 入 到 新 的 训练 集中 ; 3〉 决定 何 时 终止 自我 
训练 过 程 的 收敛 准则 。 在 本 书 的 R 添 加 包 中 ， 有 一 个 泛 型 函数 
(SelfTrain()，， 它 可 以 用 于 概率 分 类 器 ， 基 于 同时 有 标记 个 案 和 未 标 
记 个 案 的 训练 集 来 训练 模型 。 











下 面 用 数据 集 iris 给 出 这 个 函数 的 一 个 简单 应 用 示例 。 我 们 在 该 数 





据 集 中 人 工 创建 了 少数 未 标记 的 样本 ， 这 样 就 能 应 用 半 监 督 的 分 类 方 
法 : 


library (DMwR) 

library(e1071) 

data(iris) 

idx <- sample(150, 100) 

tr <- iris[idx, ] 

ts <- iris[-idx, J 

nb <- naiveBayes(Species ~ ., tr) 
table(predict(nb, ts), ts$Species) 


MOE SE ME E SNN 


setosa versicolor virginica 


setosa 12 0 0 
versicolor 0 21 1 
virginica 0 0 16 
> trST <- tr 
> nas <- sample(100, 90) 
> trST{nas, "Species"] <- NA 
> func <- function(m, d) { 
+ p <- predict(m, d, type = "raw") 
+ data.frame(cl = colnames(p)[apply(p, 1, which.max)], 
+ p = apply(p, 1, max)) 
es 
> nbSTbase <- naiveBayes(Species ~ ., trST[-nas, ]) 
> table(predict(nbSTbase, ts), ts$Species) 


setosa versicolor virginica 


setosa 12 0 0 

versicolor 0 18 2 

virginica 0 3 15 
> nbST <- SelfTrain(Species ~ ., trST, learner("naiveBayes", 
+ listQ)), "func") 


> table(predict(nbST, ts), ts$Species) 


setosa versicolor virginica 


setosa 12 0 0 
versicolor 0 20 2 
virginica 0 1 15 





上 面 的 代码 得 到 了 3 个 不 同 的 简单 贝 叶 斯 模型 。 第 一 个 模型 (nb) 
用 一 个 有 100 个 标记 个 案 的 样本 得 到 。 将 这 100 个 个 案 转 换 为 另 一 个 集 
合 ， 其 中 的 90 个 个 案 的 目标 变量 被 设 为 NA， 于 是 它们 变 为 未 标记 的 个 
案 。 用 剩余 的 10 个 有 标记 的 个 案 得 到 第 二 个 简单 贝 叶 斯 模型 











CnbSTbase) 。 最 后 ， 把 有 标记 个 案 和 未 标记 个 案 混 合 后 的 数据 集 传 递 
给 函数 SelfTrain() 从 而 得 到 第 三 个 模型 (nbST) 。 从 上 面 可 以 看 到 ， 在 
这 个 小 例子 中 ， 目 我 训练 的 模型 几乎 达到 了 与 用 100 个 标记 个 案 得 到 的 
初始 模型 一 样 的 性 能 。 


为 了 应 用 函数 SelfTrain0， 用 户 必 须 创 建 一 个 函数 〈 上 面 代码 中 是 
func()) ， 它 能 接收 一 个 给 定 模型 与 测试 集 ， 并 返回 一 个 含有 两 列 并 与 
测试 集 有 相同 行 数 的 数据 框 。 数 据 框 的 第 一 列 包含 个 有 的 预测 标记 ， 第 
二 列 为 那个 分 类 的 相应 概率 。 该 函数 需要 在 函数 SelfTrain0 之 外 来 定 
义 ， 因 为 不 是 所 有 的 predict 方 法 都 用 相同 的 语法 来 获得 类 概率 。 





函数 SelfTrain0 有 几 个 参数 来 控制 迭代 过 程 。 参 数 thrConf (默认 值 
为 0.9) 设置 为 把 一 个 未 标记 个 案 合 并 到 有 标记 个 案 集 的 概率 闪 值 〈 默 
认为 0.9) ， 参 数 maxIts 允 许 用 户 设 置 自我 训练 迭代 的 最 大 次 数 〈 默 认为 
10) ， 而 参数 percFull (默认 为 1) 用 来 指示 如 果 有 标记 集合 达到 了 某 个 
给 定数 据 集 的 一 定 百 分 比 就 停止 该 过 程 。 自 我 训练 迭代 过 程 达 到 下 列 条 
件 将 停止 : 要 么 没有 分 类 达到 所 要 求 的 概率 水 平 ， 要 么 达到 了 最 大 迭代 
次 数 ， 要 么 当前 有 标记 训练 集 达 到 了 给 定数 据 集 的 目标 比例 。 最 后 要 注 
意 的 是 ， 函 数 SelfTrain0 要 求 在 目标 变量 上 用 NA 值 来 表示 未 标记 的 个 
案 。 我 们 采用 简单 贝 叶 斯 模型 来 应 用 这 种 自我 训练 。 下 面 的 代码 实现 和 
运行 用 自我 训练 的 贝 叶 斯 模型 来 进行 的 保留 (hold-out〉 实 验 。 这 里 要 
警告 的 是 ， 有 关 运 行 该 实验 所 必需 的 计算 资源 。 取 决 于 计算 机 硬件 ， 运 




















行 的 下 面 的 代码 将 花费 较 长 的 时 间 ， 尽 管 是 以 分 钟 计 算 〈 人 至 少 在 我 的 平 
均 水 平 的 计算 机 上 是 这 样 ) 。 


> pred.nb <- function(m,d) { 
p <- predict (m,d,type='raw') 
data. frame(cl=colnames(p) [apply(p,1,which.max)], 
p=apply (p, 1,max) 
) 
} 
nb.st <- function(train,test) { 
require(e1071, quietly=T) 
train <- train[,c(‘ID','Prod','Uprice','Insp')] 
train[which(train$Insp == 'unkn'),'Insp'] <- NA 
train$Insp <- factor(train$Insp, levels=c('ok','fraud')) 
model <- SelfTrain(Insp ~ .,train, 
learner (‘naiveBayes',list()),'pred.nb') 
preds <- predict (model, test[,c('ID','Prod','Uprice','Insp')], 
type='raw') 
return (list (rankOrder=order(preds[,'fraud'] ,decreasing=T), 
rankScore=preds[,'fraud']) 
) 
J 
ho.nb.st <- function(form, train, test, ...) { 
res <- nb.st(train,test) 
structure (eval0utlierRanking(test,res$rankOrder,...), 
. itInfo=list (preds=res$rankScore, 
trues=ifelse(test$Insp=='fraud' ,1,0) 
) 


t 


nb.st.res <- holdOut(learner(‘ho.nb.st', 
pars=list (Threshold=0.1, 
statsProds=globalStats)), 
dataset(Insp ~ .,sales), 
hildSettings(3,0.3,1234,T), 
itsInfo=TRUE 
) 


和 


运行 上 面 的 目 我 训练 模型 的 结果 如 下 所 示 。 


> summary (nb.st.res) 
== Summary of a Hold Out Experiment == 
Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.nb.st with parameters: 
Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.013521017 0.42513271 1.08220611 
std 0.001346477 0.03895915 1.59726790 
min 0.012077295 0.38666667 0.06717087 
max 0.014742629 0.46456693 2.92334375 
invalid 0.000000000 0.00000000 0.00000000 


这 些 结果 很 令 人 失望 。 它 与 只 用 有 标记 数据 训练 的 简单 贝 叶 斯 的 结 
果 很 相似 。 除 了 NDTP 的 平均 值 有 些许 提高 外 ， 其 他 统计 量 基 本 相同 ， 
它 比 我 们 目前 得 到 的 最 好 分 数 相差 很 大 。 而 且 ， 惑 是 这 个 较 好 的 指标 还 
伴随 一 个 很 大 的 标准 差 。 





图 4-14 给 出 了 这 个 模型 、 标 准 简单 贝 叶 斯 模型 和 OR 模型 的 PR 曲线 
以 及 累积 回溯 精确 度 曲线 。 用 下 面 的 代码 来 绘制 该 图 形 : 


par(mfrow=c(i,2)) 
info <- attr(nb.st.res,'itsInfo') 
PTs.nb.st <- aperm(array(unlist (info) ,dim=c(length(info[[1]]),2,3)), 
c(1,3,2) 
) 
PRcurve(PTs.nb[,,1],PTs.nb[,,2], 
main='PR curve’, lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
PReurve(PTs.orh[,,1],PTs.orh[,,2], 
add=T, 1lty=1,col='grey', 
avg='vertical') 
PReurve(PTs.nb.st{,,1],PTs.nb.st[,,2], 
add=T, lty=2, 
avg='vertical') 
legend ('topright',c('NaiveBayes' ,'ORh','NaiveBayes-ST'), 
lty=c(1,1,2),col=c('black','grey','black')) 
CRchart (PTs.nb[,,1],PTs.nb[,,2], 
main='Cumulative Recall curve',lty=1,xlim=c(0,1),ylim=c(0,1), 
avg='vertical') 
CRchart (PTs.orh[,,1],PTs.orh[,,2], 
add=T, 1ty=1,col='grey', 
avg='vertical') 
CRchart (PTs.nb.st{,,1],PTs.nb.st[,,2], 
add=T, lty=2, 
avg='vertical') 
legend ('bottomright',c('NaiveBayes' ,'ORh','NaiveBayes-ST'), 
lty=c(1,1,2),col=c('black','grey','black')) 
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图 4-14 确 认 了 目 我 训练 的 简单 贝 叶 斯 分 类 模 型 令 人 失 纪 的 性 能 。 对 
于 这 个 特定 问题 ， 即 使 应 用 了 由 相对 较 小 的 数据 集 得 到 的 简单 贝 叶 斯 模 


型 ， 这 个 半 监 督 分 类 器 还 是 明显 没有 莞 争 力 。 
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4-14 自 训练 的 简单 贝 叶 斯 方法 、 标 准 简单 贝 叶 斯 方法 和 ORn 方法 
的 PR 图 (AA) 和 累积 回溯 精确 度 曲 线 ( 右 图 ) 


我 们 也 用 AdaBoost.M1 算 法 进行 了 目 我 训练 。 下 面 的 代码 执行 这 些 


pred.ada <- function(m,d) { 
p <- predict (m,d,type='probability') 
data. frame(cl=colnames(p) [apply(p,1,which.max)], 
p=apply(p,1,max) 
) 


J 
ab.st <- function(train,test) { 

require (RWeka, quietly=T) 

train <- train[,c('ID','Prod','Uprice','Insp')] 

train[which(train$Insp == 'unkn'),'Insp'] <- NA 

train$Insp <- factor(train$Insp, levels=c('ok','fraud')) 

model <- SelfTrain(Insp ~ .,train, 

learner ('AdaBoostM1', 
list (control=Weka_control(I=100))), 
"pred. ada’) 
preds <- predict (model,test[,c('ID','Prod','Uprice','Insp')], 
type='probability') 
return (list (rankOrder=order(preds[,'fraud'] ,decreasing=T), 
rankScore=preds[,'fraud'] ) 
) 

} 
ho.ab.st <- function(form, train, test, ...) { 

res <- ab.st(train,test) 

structure (eval0utlierRanking(test,res$rankOrder,...), 

itInfo=list (preds=res$rankScore, 
trues=ifelse(test$Insp=='fraud',1,0) 
) 
) 
} 
ab.st.res <- holdOut (learner (‘ho.ab.st', 
pars=list (Threshold=0.1, 
statsProds=globalStats)), 


中 和 


dataset(Insp ~ .,sales), 
hldSettings(3,0.3,1234,T), 
itsInfo=TRUE 

) 


在 10% 的 检验 努力 下 ， 上 自我 训练 的 AdaBoost 方 法 的 结果 如 下 : 


> summary (ab.st.res) 


== Summary of a Hold Out Experiment == 


Stratified 3 x 70 %/ 30 % Holdout run with seed = 1234 


* Dataset :: sales 

* Learner :: ho.ab.st with parameters: 
Threshold = 0.1 
statsProds = 11.34 


* Summary of Experiment Results: 


Precision Recall avgNDTP 
avg 0.022377700 0.70365350 1.6552619 
std 0.001130846 0.02255686 1.5556444 
min 0.021322672 0.68266667 0.5070082 
max 0.023571548 0.72750643 3.4257016 
invalid 0.000000000 0.00000000 0.0000000 





尽管 不 是 出 人 意料 地 好 ， 但 这 些 分 数 比 单独 用 有 标记 数据 得 到 的 
AdaBoost.M1 模 型 有 提高 。 决 策 精 确 度 基本 上 一 样 ， 在 回溯 精确 度 和 平 
均 NDTP 上 有 小 的 提高 。 对 于 10% 的 努力 水 平 ， 这 里 的 回溯 精确 度 是 我 
们 尝试 的 所 有 模型 中 最 高 的 。 图 4-15 给 出 了 这 个 模型 、 标 准 
Adaboost.M1 模 型 和 OR 模型 的 PR 曲线 以 及 累积 回溯 精确 度 曲线 。 用 下 
面 的 代码 来 绘制 该 图 形 : 





> par(mfrow = c(1, 2)) 
info <- attr(ab.st.res, "itsInfo") 
PTs.ab.st <- aperm(array(unlist (info), dim = c(length(info[[1]]), 
a, 32; C1, 3, 2)2 
PReurve(PTs.ab{, , 1], PTs.ab[, , 2], main = "PR curve", 
lty = 1, xlim = c{0, 1), ylim = c(0, 1), avg = “vertical") 
PReurve(PTs.orh[{, , 1], PTs.orh[, , 2], add = T, lty = 1, 
col = "grey", avg = “vertical") 
PReurve(PTs.ab.st[, , 1], PTs.ab.st[, , 2], add = T, lty = 2, 
avg = "vertical") 
legend("topright", c("AdaBoostMi", "ORh", "AdaBoostM1-ST"), 
lty = c(1, 1, 2), col = c("black", "grey", "black")) 
CRchart(PTs.ab[, , 1], PTs.ab[, , 2], main = "Cumulative Recall curve", 
lty = 1, xlim = c(0, 1), ylim = c(0, 1), avg = "vertical") 
CRchart(PTs.orh[{, , 1], PTs.orh[, , 2], add = T, lty = 1, 
col = "grey", avg = “vertical") 
CRchart(PTs.ab.st[, , 1], PTs.ab.st[, , 2], add = T, lty = 2, 
avg = "vertical") 
legend("bottomright", c("AdaBoostMi", "ORh", "AdaBoostM1-ST"), 
lity = c(1, 1, 2), col = c("black", "grey", “black")) 


VM VV St VE M a Vi Ve Me wv 


FEF VE (ol Py pel TSS aN EY AT A, AT a A E BAT 
目 我 训练 的 AdaBoost.M1 模 型 是 最 好 的 模型 。 特 别 是 ， 在 检验 限 值 水 平 
在 15%~~20% 时 ， 残 侦 测 出 的 欺诈 报告 的 比例 而 言 ， 它 明显 地 好 于 其 他 
的 模型 系统 。 束 决策 精确 度 而 言 ， 这 个 模型 的 分 数 不 是 太 吸引 人 ， 但 前 
面 我 们 提 到 ， 那 些 家 模型 放 在 较 高 排序 位 置 的 未 标记 报告 最 终 和 被 确认 为 
欺诈 也 不 是 一 件 坏事 。 
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自 训练 的 AdaBoost.M1 方 法 、OR, 方法 和 标准 的 AdaBoost.M1 
方法 的 PR 图 (AW) 和 累积 回溯 精确 度 曲线 (AB) 


45 小结 





本 章 的 主要 目的 是 同 读者 介绍 一 类 新 的 数据 挖掘 问题 ， 离 群 值 排 
序 。 特 别 是 我 们 采用 了 一 个 从 不 同 的 方面 处 理 这 个 任务 的 数据 集 。 即 ， 
我 们 对 该 问题 应 用 了 有 监督 的 、 无 监督 的 和 半 监 督 的 方法 。 对 于 应 用 有 
限 的 资源 来 找到 一 个 现象 的 异常 观测 值 这 一 第 见 问 题 ， 本 间 的 应 用 可 以 
看 做 是 它 的 一 个 实例 。 多 个 实际 问题 可 以 映射 到 这 个 通用 框 桨 中 ， 例 如 
信用 卡 、 电 信和 税收 的 其 诈 侦 测 等 。 在 证 券 领域 ， 也 有 这 种 欺诈 侦 测 一 
般 概念 的 多 个 应 用 。 








用 方法 论 的 术语 来 讲 ， 我 们 介绍 了 下 面 的 新 主题 : 


: 离 群 值 侦 测 和 排序 。 


通过 上 自我 训练 的 半 监 督 分 类 。 


失衡 的 类 分 布 以 及 处 理 这 类 问题 的 方法 。 


-简单 贝 叶 斯 分 类 器 。 


.AdaBoost 分 类 器 。 


们 。 


-决策 精确 度 / 回 溯 精 确 度 和 累积 回调 精确 度 。 
-保留 《交叉 验证 ) 实验。 
从 学 习 R 的 角度 来 讲 ， 我 们 演示 了 : 


:如 何 获取 多 个 性 能 指标 统计 量 和 如 何 用 ROCR 添 加 包 来 可 视 化 它 


如何 得 到 性 能 指标 统计 量 的 交叉 验证 估计 。 

如何 用 LOF 方 法 得 到 局 部 离 群 值 因子 。 

-如 何 用 ORn 方法 得 到 离 群 值 排序 。 

如何 用 SMOTE 方 法 克服 类 失衡 。 

如何 得 到 简单 贝 叶 斯 分 类 模型 。 

:如 何 得 到 AdaBoost.M1 分 类 模型 。 

-如何 通 过 RWeka 添 加 包 来 应 用 Weka 数 据 挖掘 系统 的 方法 。 


-如何 用 目 训 练 方法 把 一 个 分 类 需 应 用 到 半 监 督 的 数据 集 。 


第 5 曹 ” 微 阵列 样本 分 关 





第 四 个 案例 是 来 自生 物 信 息 领 域 。 在 这 个 案例 中 ， 我 们 重点 讲述 如 
何 对 微 阵列 样本 进行 分 类 。 更 准确 地 说 ， 给 定 一 个 描述 病人 基因 表达 情 
况 的 微 阵列 表 ， 我 们 将 确定 这 个 病人 的 急性 淋巴 细胞 白血病 的 基因 突变 
类 型 。 这 个 采 例 将 涉及 多 个 新 的 数据 挖 气 主题。 根据 这 类 数据 的 特 后 ， 
本 章 重 点 讲述 特征 选择 方法 ， 也 就 是 如 何 降低 描述 每 个 观察 对 象 特征 的 
个 数 。 在 这 个 特殊 的 应 用 中 ， 我 们 给 出 儿 个 第 用 的 特征 选择 方法 。 本 章 
涉及 的 其 他 数据 挖掘 主题 包括 k 近 邻 分 类 ， 弃 一 交 义 验证 法 和 其 他 形式 
的 组 合 模型 。 








5.1 问题 描述 与 目标 


生物 信息 学 是 R 的 主要 应 用 领域 之 一 。 有 一 个 基于 R 的 生物 信息 学 
相关 项 目 ， 该 项 目的 目的 是 为 生物 信息 学 领域 提供 大 量 分 析 工 具 ， 该 项 
目的 名 称 为 Bioconductor 1 。 本 案例 将 使 用 这 个 项 目 提 供 的 工具 来 处 理 


有 监督 的 分 类 问题 。 





5.1.1 微 阵 列 实验 背景 简介 


一 个 没有 生物 背景 的 人 在 生物 信息 学 领域 中 碰 到 的 主要 问题 之 一 是 
此 领域 中 大 量 的 “新 ”术语 。 在 这 个 简单 的 背景 介绍 中 ， 我 们 将 向 读者 介 
绍 生物 信息 学 领域 中 的 一 些 “ 术 语 ”， 并 且 试 着 把 它们 映射 到 更 “标准 ”的 
数据 挖掘 术语 。 





分 析 差 寞 基因 表达 是 DNA 微 阵列 实验 中 的 一 个 重要 应 用 之 一 。 基 因 
表达 微 阵 列 可 以 让 我 们 根据 样本 的 基因 表达 水 平 来 描述 这 些 样 本 《〈 即 个 
体 ) 的 特征 。 在 生物 信息 学 领域 ， 一 个 样本 是 指 某 些 研究 现象 的 一 个 观 
测 值 〈 或 者 个 案 ) 。 微 阵列 实验 是 用 来 测量 这 些 观测 值 的 “变量 ”集合 的 
方法 。 这 里 的 变量 是 指 大 量 基因 数据 的 集合 ， 对 每 一 个 变量 (基因 )， 
这 些 实验 都 会 测量 一 个 相应 的 表达 水 平 。 总 之 ， 一 个 数据 集 是 由 一 组 样 
Æ BIDR) 构成 ， 我 们 测量 这 些 样本 的 大 量 基因 ( 即 变 量 ) 集合 的 表 

















达 水 平 。 如 果 这 些 样品 有 一 些 与 其 相关 的 疾病 状态 ， 我 们 可 以 答 试 找到 
一 个 未 知 函数 ， 该 函数 可 以 把 基因 表达 水 平 映射 到 疾病 状态 。 可 以 使 用 
一 个 先前 分 析 过 的 样本 的 数据 集 来 近似 描述 这 个 函数 ， 这 是 一 个 有 监督 
分 类 任务 的 一 个 实例 ， 其 中 目标 变量 是 疾病 类 型 。 在 这 种 问题 中 ， 观 测 
值 是 样品 《〈 微 阵列 、 个 体 ) ， 预 测 变量 是 我 们 用 微 阵 列 实验 来 测量 菏 值 
( 即 表 达 水 平 ) 的 基因 。 这 里 的 关键 假设 是 不 同 的 疾病 类 型 是 与 不 同 的 
基因 表达 谱 特征 相关 的 ， 而 且 通 过 微 阵列 来 测量 这 些 基因 表达 谱 ， 我 们 
束 可 以 精确 地 预测 一 个 个 体 的 疾病 类 型 。 














为 了 获得 一 些 样本 的 基因 表达 水 平 ， 多 种 技术 手段 由 此 而 生 。 短 袁 
核 苷 酸 芯 片 就 是 这 些 技术 的 一 个 例子 。 短 寡 核 苷 酸 芯 片 的 输出 是 一 个 图 
像 ， 经 过 几 个 预 处 理 步 又 后 ， 这 个 图 像 可 以 映射 为 一 组 基因 表达 水 平 。 
项 目 Bioconductor 有 几 个 R 添 加 包 就 是 实现 这 些 预 处 理 步骤 的 ， 它 包括 分 
析 短 朝 核 昔 酸 芯片 输出 的 图 像 、 标 准 化 任务 ， 以 及 其 他 几 个 得 到 基因 表 
达 水 平 的 必要 步骤 。 在 这 个 案例 中 ， 我 们 不 介绍 这 些 初 始 的 步骤 。 感 兴 
趣 的 读者 可 以 参考 Bioconductor 项 目的 几 个 信息 资源 ， 也 可 以 参考 其 他 
书籍 (例如 ，Hahne etal., 2008) 。 








在 这 种 情况 下 ， 我 们 将 直接 从 经 过 这 些 预 处 理 步 又 得 到 的 基因 表达 
水 平和 矩阵 入 手 。 该 和 矩阵 是 观测 值 的 预测 变量 信息 。 我 们 将 会 看 到 ， 通 营 
会 有 比 样 本 量 更 多 的 预测 变量 被 测量 ， 也 就 是 说 预测 变量 的 个 数 多 于 观 
测 值 的 个 数 。 这 是 典型 的 微 阵列 数据 集 的 特点 。 这 些 基 因 表 达 和 矩阵 的 力 


一 个 特别 之 处 是 ， 与 标准 的 数据 集 相 比 较 ， 它 们 看 起 来 是 经 过 转 置 的 。 
这 意味 着 矩阵 的 行 代表 预测 变量 〈 即 基因 )〉， 和 矩阵 的 列 代 表 观 测 值 〈 即 
样本 ) 。 对 于 每 一 个 样本 ， 我 们 也 需要 它 的 相关 分 类 。 在 本 章 的 案例 
中 ， 该 分 类 是 一 种 遗传 变异 相关 疾病 。 这 里 也 可 能 存在 其 他 的 变量 信息 
例如， 抽样 个 体 的 性 别 和 年 龄 等 ) 。 


[1] http://www.bioconductor.org. 


5.1.2 ”数据 集 ALL 


本 章 所 使 用 的 数据 集 来 自 关 于 急性 淋巴 细胞 白血病 的 一 个 研究 
(Chiaretti et al., 2004; Li, 2009) 。 这 些 数据 是 从 患 这 类 疾病 的 128 位 
个 体 上 得 到 的 微 阵列 样本 。 事 实 上 ， 在 这 些 样本 中 有 两 种 不 同类 型 的 肿 
瘤 : T 细 胞 ALL( 共 33 例 样本 ) 和 B 细 胞 ALL 〈 共 95 例 样本 ) 。 





我 们 将 集中 研究 B 细 胞 ALL 样 本 数据 。 在 这 后 一 组 样品 中 ， 我 们 能 
区 分 出 不 同类 型 的 突变 ， 即 ALL1/AF4、BCR/ABL、E2A/PBX1、 
p15/p16 和 没有 细胞 遗传 学 异常 。 在 对 B 细 胞 ALL 样 本 的 分 析 中 ， 由 于 只 
有 一 个 样本 的 突变 类 型 为 p15/p16， 所 以 所 有 分 析 中 将 剔除 该 观测 值 。 
我 们 建 模 的 目标 是 根据 它 的 微 阵列 能 够 预测 出 个 体 的 突变 类 型 。 考 虑 到 
目标 变量 是 有 4 个 可 能 取 值 的 名 义 变量 ， 因 此 我 们 面临 的 是 一 个 有 监督 
的 分 类 任务 。 

















5.2 可 用 的 数据 


数据 集 ALL 是 生物 信息 学 软件 包 (Bioconductor) 的 一 部 分 。 为 了 
使 用 该 数据 集 ， 我 们 至 少 需要 从 Bioconductor 网 站 安装 一 些 基 本 的 添加 
包 。 由 于 这 个 数据 集 已 经 是 R 添 加 包 的 一 部 分 ， 所 以 这 里 没有 把 这 个 数 
据 集 包含 在 本 书 的 添加 包 中 。 


为 了 安装 基本 的 生物 信息 学 软件 包 和 数据 集 ALL， 假 设 我 们 已 经 正 
常 连 接 到 了 互联 网 ， 需 要 执行 下 列 指令 : 





> source("“http://bioconductor.org/biocLite.R") 
> biocLite() 
> biocLite("ALL") 
需要 在 第 一 次 使 用 时 运行 上 面 的 代码 。 当 把 这 些 添 加 包 安 装 好 
后 ， 只 要 简单 地 运行 下 列 代码 就 可 以 应 用 数据 集 ALLT 了 : 
> library(Biobase) 
> library(ALL) 
> data(ALL) 
上 面 的 指令 会 载 入 添加 包 Biobase (Gentleman et al.，2004) 和 添加 
包 ALL (Gentleman et al.，2010) 。 然 后 ， 我 们 载 入 数据 集 ALL， 这 将 
创建 一 个 由 Bioconductor 定 义 的 特殊 类 (ExpressionSet) 对 象 。 这 个 类 对 
象 含有 微 阵 列 数据 集 的 大 量 信 息 。 有 多 个 相关 的 方法 来 处 理 这 种 类 型 的 





对 象 。 如 果 需 要 R 给 出 ALL 对 象 的 内 容 ， 可 以 得 到 以 下 信息 : 


> ALL 
ExpressionSet (storageMode: lockedEnvironment) 


assayData: 12625 features, 128 samples 
element names: exprs 
phenoData 
sampleNames: 01005, 01010, ..., LAL4 (128 total) 
varLabels and varMetadata description: 
cod: Patient ID 


diagnosis: Date of diagnosis 
date last seen: date patient was last seen 
(21 total) 
featureData 
featureNames: 1000_at, 1001_at, ..., AFFX-YELO24w/RIP1_at (12625 total) 
fvarLabels and fvarMetadata description: none 
experimentData: use 'experimentData(object)' 
pubMedIds: 14684422 16243790 
Annotation: hgu95av2 








上 面 输出 的 ALL 对 象 信息 分 为 几 个 组 。 首 先是 含有 基因 表达 水 平 矩 
阵 的 测量 数据 ， 该 数据 包含 128 个 样本 12625 个 基因 。ALL 对 象 也 含有 大 
量 的 实验 样本 的 元 数据 。 这 包括 phenoData 部 分 的 样本 名 称 和 几 个 相关 
的 协 变量 的 信息 。 它 也 包括 特征 〈 即 基因 ) 信息 以 及 生物 医学 数据 库 中 
有 关 基 因 的 注释 。 最 后 ， 该 对 象 也 包含 实验 的 描述 信息 。 


有 多 种 方法 可 以 用 来 方便 地 访问 对 象 ExpressionSet 中 的 信息 。 下 面 
给 出 几 个 例子 。 我 们 从 获取 与 每 一 个 样本 相关 联 的 协 变 量 的 信息 入 手 ， 
代码 如 下 : 





> pD <- phenoData(ALL) 
> varMetadata (pD) 


labelDescription 
cod Patient ID 
diagnosis Date of diagnosis 
sex Gender of the patient 
age Age of the patient at entry 
BT does the patient have B-cell or T-cell ALL 
remission Complete remission(CR), refractory(REF) or NA. Derived from CR 
CR Original remisson data 
date.cr Date complete remission if achieved 
t(4;11) did the patient have t(4;11) translocation. Derived from citog 
t(9;22) did the patient have t(9;22) translocation. Derived from citog 
cyto.normal Was cytogenetic test normal? Derived from citog 
citog original citogenetics data, deletions or t(4;11), t(9;22) status 
mol.biol i molecular biology 
fusion protein which of p190, p210 or p190/210 for bcr/able 
mdr multi-drug resistant 
kinet ploidy: either diploid or hyperd. 
ccr Continuous complete remission? Derived from f.u 
relapse Relapse? Derived from f.u 
transplant did the patient receive a bone marrow transplant? Derived from f.u 
f.u follow up data available 
date last seen date patient was last seen 


> table(ALL$BT) 


B Bi B2 B3 B4 T Ti T2 T3 T4 
5 19 36 2312 5 11510 2 


> table (ALL$mol. biol) 


ALL1/AF4 BCR/ABL E2A/PBX1 NEG NUP-98 pi5/pi6 
10 37 5 74 1 1 


> table(ALL$BT, ALL$mol.bio) 


ALL1/AF4 BCR/ABL E2A/PBX1 NEG NUP-98 p15/p16 
B 0 2 - - 0 0 
Bi 10 1 O: S 0 0 
B2 0 19 0 16 0 1 


B3 0 8 1 14 0 0 
B4 0 T 3 2 0 0 
$ 0 0 0 5 0 0 
dl 0 0 Go 4 0 0 
T2 0 0 0 15 0 0 
T3 0 0 O 9 1 0 
T4 0 0 Go 2 0 0 





前 两 个 指令 用 来 获取 己 有 的 协 变 量 的 名 称 和 描述 。 接 着 ， 我 们 得 到 
样本 在 两 个 主要 协 变 量 上 分 布 的 信息 。 这 两 个 协 变 量 是， 变量 BT， 它 
决定 急性 淋巴 细胞 性 白血病 的 类 型 ， 变 量 mol.bio， 描 述 在 每 个 样本 上 发 
现 的 细胞 遗传 学 异常 (NEG 代表 没有 任何 异常 〉。 





我 们 也 可 以 得 到 一 些 关 于 基因 和 样本 的 信息 : 


> featureNames (ALL) [1:10] 


[1] "1000_at" "1001_at" "1002_f_at" "1003_s_at" "1004_at" 
[6] "1005_at" "1006_at" "1007_s_at" "1008_f_at" "1009_at" 


> sampleNames (ALL) [1:5] 


[1] "01005" "01010" "03002" "04006" "04007" 


这 段 代码 给 出 了 开始 10 个 基因 的 名 称 以 及 开始 5 个 样本 的 名 称 。 


前 面 提 到 过 ， 我 们 将 专注 于 分 析 B 细 胞 ALL 个 案 数 据 ， 特 别 是 有 基 
因 突 变 的 那个 样本 子 集 ， 基 因 突 变 是 我 们 分 析 的 目标 类 。 我 们 将 用 下 面 
的 代码 获得 我 们 将 要 应 用 的 数据 子 集 : 


> tgt.cases <- which(ALL$BT žin% levels (ALL$BT) [1:5] & 


+ ALL$mol.bio %in% levels (ALL$mol. bio) [1:4]) 
> ALLb <- ALL[,tgt.cases] 
> ALLb 


ExpressionSet (storageMode: lockedEnvironment) 
assayData: 12625 features, 94 samples 
element names: exprs 
phenoData 
sampleNames: 01005, 01010, ..., LAL5 (94 total) 
varLabels and varMetadata description: 
cod: Patient ID 
diagnosis: Date of diagnosis 
date last seen: date patient was last seen 
(21 total) 
featureData 
featureNames: 1000_at, 1001_at, ..., AFFX-YELO24w/RIPi_at (12625 total) 
fvarLabels and fvarMetadata description: none 
experimentData: use 'experimentData(object)' 
pubMedIds: 14684422 16243790 
Annotation: hgu95av2 


第 一 条 指令 用 于 获得 我 们 将 考虑 的 个 案 的 集合 。 这 些 个 案 是 变量 
BT 和 变量 mol.bio 取 特定 值 的 样本 。 前 面 介绍 过 函数 table()， 这 里 调用 该 
函数 来 显示 选择 了 哪些 样本 。 我 们 取 原 始 ALL 对 象 的 子 集 ， 得 到 94 个 样 
本 用 于 我 们 的 案例 研究 。 这 个 样本 子 集 只 包含 变量 BT 和 变量 mol.bio 的 
一 部 分 取 值 。 因 此 ， 我 们 需要 更 新 这 两 个 因子 变量 的 可 用 水 平 ， 并 存储 
为 一 个 新 的 ALLb 对 象 ， 代 码 如 下 : 





> ALLb$BT <- factor(ALLb$BT) 
> ALLb$mol.bio <- factor(ALLb$mol .bio) 


ALLb 对 象 将 是 本 章 所 使 用 的 数据 集 。 最 好 把 这 个 对 象 保存 为 计算 
机 中 的 一 个 本 地 文件 ， 这 样 当 你 需要 从 头 开始 分 析 时 ， 你 束 不 需要 重复 








这 些 预 处 理 步 又: 


> save(ALLb, file = "myALL.Rdata") 


探索 数据 库 





函数 exprsO 可 以 访问 基因 表达 水 平 矩 阵 : 


> es <- exprs(ALLb) 
> dim(es) 


[1] 12625 94 


BEIM A 1262547 GEARED ，94 列 《样本 /个 案 ) 。 





就 维 数 而 言 ， 这 里 最 重要 的 挑战 是 ， 对 于 可 以 获得 的 个 案 (94) 有 
太 多 的 变量 〈12625) 。 对 于 这 种 大 维度 数据 ， 大 多 数 的 建 模 技术 将 很 
难 获得 有 意义 的 结果 。 在 这 种 情形 下 ， 我 们 的 第 一 个 目标 是 降低 变量 的 
数量 ， 即 从 我 们 的 分 析 中 吻 除 挥 某 些 基 因 。 为 此 ， 下 面 从 探索 表达 水 平 
数据 入 手 。 





下 面 指令 的 结果 告诉 我 们 ， 大 多 数 基 因 表 达 水 平 的 值 是 在 4 一 7 之 
间 : 





> summary (as.vector(es)) 


Min. ist Qu. Median Mean 3rd Qu. Max. 
1.985 4.122 5.469 5.624 6.829 14.040 


图 形 方 式 可 以 更 好 地 描述 表达 水 平 的 分 布 。 我 们 用 添加 包 
genefilter (Gentleman et al., 2010) 的 一 个 函数 来 绘制 数据 。 在 应 用 该 
添加 包 之 前 ， 必 须 先 安装 它 。 注 意 ， 这 是 一 个 bioconductor 添 加 包 ， 它 
们 不 是 从 标准 R 添 加 包 存 储 库 中 安装 。 最 简单 的 安装 生物 信息 学 添加 包 
的 方法 是 通过 该 项 目 提供 的 专用 于 安装 添加 包 的 脚本 来 完成 : 








> source("http://bioconductor.org/biocLite.R") 
> biocLite("genefilter") 


第 一 条 指令 加 载 安装 脚本 ， 第 二 个 指令 用 它 来 下 载 和 安装 添加 包 。 
现在 可 以 进行 上 述 绘图 工作 ， 用 图 形 化 方式 来 显示 表达 水 平 的 分 布 。 


> library(genefilter) 
> hist(as.vector(es), breaks=80, prob=T, 
+ xlab='Expression Levels', 
main='Histogram of Overall Expression Levels') 
abline(v=c(median(as.vector(es)), 
shorth(as.vector(es)), 
quantile(as.vector(es),c(0.25,0.75))), 
lty=2,col=c(2,3,4,4)) 
legend('topright',c('Median' ,'Shorth','1stQ' ,'3rdQ'), 
lty=2,col=c(2,3,4,4)) 


+VvVvt+ttv + 











结果 如 图 5-1 所 示 。 考 虑 到 我 们 的 数据 中 有 大 量 的 基因 表达 水 平 ， 
因此 这 里 改变 了 直方 图 函数 histO 的 默认 区 间 数 ， 设 置 参数 breaks 的 值 为 
80， 这 样 就 有 可 能 得 到 分 布 很 详细 的 逼近 。 在 直方 图 上 ， 我 们 绘制 了 几 


条 竖 线 来 显示 中 位 数 、 第 一 个 四 分 位 数 、 第 三 个 四 分 位 数 和 SHORTH。 





统计 量 SHORTH 是 连续 型 分 布 的 中 心 趋势 的 稳健 估计 ， 由 添加 包 
genefilter 中 的 函数 shorthO 实 现 。 该 统计 量 是 包含 50% 观 测 值 的 中 心 区 间 
《 即 四 分 位 距 ) 观测 值 的 均值 。 


基因 变 开 样本 的 基因 表达 水 平分 布 是 否 和 其 他 样本 的 分 布 不 同 呢 ? 
下 面 的 代码 回答 了 这 个 问题 。 


> sapply(levels(ALLb$mol.bio), function(x) summary(as.vector(es[, 
+ which (ALLb$mol.bio == x)]))) 


ALLi/AF4 BCR/ABL E2A/PBX1 NEG 
Min. 2.266 2.195 2.268 1.985 
ist Qu. 4.141 4.124 4.152 4.111 
Median 5.454 5.468 5.497 5.470 


Mean 5.621 5.627 5.630 5.622 
3rd Qu. 6.805 6.833 6.819 6.832 
Max. 14.030 14.040 13.810 13.950 


正如 我 们 所 看 到 的 ， 这 些 样本 的 子 集 很 相似 ， 并 且 它 们 表达 水 平 的 
全 局 分 布 也 相似 。 
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Histogram of Overall Expression Levels 


5-1 基因 表达 水 平 的 分 布 


5.3 ÆA CRE) 选择 





在 许多 数据 挖掘 问题 中 ， 特 征 选择 是 一 项 重要 的 任务 。 一 般 的 问题 
是 选择 数据 挖掘 问题 的 特征 (或 者 变量 ) 子 集 ， 这 个 子 集 与 所 分 析 的 问 
题 有 更 局 的 相关 性 。 可 以 把 特征 选择 认为 是 之 后 建 模 阶段 决定 变量 的 权 
E (EHE) 这 一 通用 问题 的 一 个 实例 。 一 般 而 言 ， 有 两 种 类 型 的 特 
征 选择 方法 : 1) 过滤 方法 ; 2) 封装 方法 。 在 3.3.2 市 提 到 ， 过 滤 方 法 应 
用 变量 的 统计 特征 来 选择 最 终 的 特征 集合 ; 而 封装 方法 则 一 般 在 变量 选 
择 过 程 中 要 包括 数据 挖掘 模型 。 过 滤 方 法 在 一 个 单一 步 又 中 完成 ， 而 封 
装 方法 则 需要 一 个 搜索 过 程 ， 我 们 用 从 代 方 式 找到 最 适合 应 用 的 数据 控 
掘 模型 的 变量 子 集 。 特 征 封装 方法 明显 地 需要 更 多 的 计算 资源 ， 它 需要 
多 次 运行 整个 “过 小 + 模型 + 评估 ”周期 ， 直 到 满足 人 条 些 收敛 准则 。 这 意味 
着 ， 对 于 大 型 的 数据 挖掘 问题 ， 如 果 时 间 要 求 很 局， 那么 封装 方法 将 不 
适用 。 然 而 ， 也 许 会 找到 理论 上 可 行 的 封装 方法 ， 它 适用 于 所 应 用 模型 
的 变量 集合 。 在 本 节 中 ， 我 们 将 描述 和 应 用 过 小 方法 。 











5.3.1 基于 分 布 特征 的 简单 过 渡 方 法 














我 们 给 出 的 第 一 个 基因 过 小 方法 是 基于 基因 表达 水 平分 布 所 给 出 的 
信息 。 这 种 类 型 的 实验 数据 通常 包含 有 多 个 根本 不 被 表达 的 基因 或 者 变 
动 性 极 小 的 基因 。 第 二 个 特征 意味 着 这 些 基因 不 能 用 来 对 样本 进行 区 





分 。 而 且 这 种 类 型 的 微 阵 列 通 常 有 多 个 对 照 探 针 ， 它 们 可 以 很 容易 地 被 
剔除 。 在 我 们 的 案例 中 ， 应 用 的 微 阵列 为 Affymetric U95Av2， 这 些 探 针 
Dae BE“APFX” JP Sk. 











我 们 可 以 通过 下 面 的 图 形 来 得 到 每 个 基因 在 所 有 样本 上 的 总 体 分 布 
情况 。 我 们 用 中 位 数 和 四 分 位 距 (IQR) 来 代表 基因 的 这 些 分 布 。 下 面 
的 代码 用 来 得 到 每 个 基因 的 这 些 统计 量 值 并 绘制 它们 的 散 点 图 ， 如 图 5- 
2 所 未 。 





> rowIQRs <- function(em) 
+ rowQ(em,ceiling(0.75*ncol(em))) - rowQ(em,floor(0.25*ncol (em))) 
> plot (rowMedians(es),rowIQRs(es), 


+ xlab='Median expression level', 
+ ylab='IQR expression level’, 
+ main='Main Characteristics of Genes Expression Levels') 





R 添 加 包 Biobase 中 的 函 a KIRE BE BET EHP 
位 数 。 这 种 方式 获取 中 位 数 是 很 有 效 的 。 另 一 种 方法 是 应 用 函数 
apply0， 它 没有 这 里 的 方法 有 效 由 。 函 数 rowQO 是 添加 包 Biobase 提 供 
的 另 一 个 高 效率 的 函数 ， 它 用 来 得 到 矩阵 每 行 向 量 分 布 的 四 分 位 数 ， 该 
函数 的 第 二 个 参数 是 一 个 取 值 在 1 到 适 阵 列 数 之 间 的 整数 《1 代表 最 小 
值 ， 其 他 值 代 表 给 出 最 大 值 ) 。 这 里 ， 我 们 应 用 函数 rowQ0O 的 第 3 个 四 
分 位 数 减 去 第 1 个 四 分 位 数 ， 从 而 得 到 四 分 位 距 QR) 。 这 些 统计 量 
分 别 对 应 于 75% 一 25% 的 数据 号 。 在 上 面 的 代码 中 ， 我 们 应 用 函数 
floor() 和 函数 ceiling() 得 到 和 矩阵 每 一 行 数值 的 相应 四 分 位 数 的 位 置 。 这 两 


























个 函数 采用 不 同 的 舍 入 方法 来 获取 一 个 浮 点 数 的 整数 部 分 。 读 者 可 以 试 
验 这 两 个 函数 ， 理 解 它们 的 不 同 之 处 。 我 们 应 用 函数 rowQO 创 建 了 函数 
rowIQRs()， 从 而 可 以 获取 每 行 的 四 分 位 距 QR) 。 





Main Characteristics of Gene Expression Levels 
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图 5-2 基因 表达 水 平 的 中 位 数 和 四 分 位 距 


图 5-2 给 出 了 有 趣 的 信息 。 从 图 5-2 中 可 知 ， 很 大 比例 的 基因 的 变动 
性 很 小 (IQR 接 近 0) 。 前 面 提 到 ， 如 果 一 个 基因 在 所 有 样本 上 的 变动 
性 很 小 ， 我 们 就 有 很 好 地 理由 认为 它 不 能 很 好 地 起 到 区 分 不 同类 型 的 B 
细胞 ALL 变 异 的 作用 。 这 如 意味 独 我 们 可 以 安全 地 把 这 些 基 因 从 我 们 的 
分 类 任务 中 剔除 。 我 们 需要 注意 的 是 ， 这 里 的 推理 有 一 个 缺陷 。 事 实 





上 ， 这 里 是 从 单个 基因 来 观察 的 。 因 此 上 述 推理 的 风险 在 于 ， 如 果 我 们 
把 某 些 在 所 有 样本 上 有 很 小 变化 的 基因 和 其 他 基因 放 到 一 起 ， 那 么 它们 
有 可 能 对 分 类 任务 起 作用 。 然 而 ， 对 于 这 样 高 维度 的 数据 集 ， 探 索 基 因 
之 间 的 相互 作用 是 很 困难 的 。 因 此 ， 我 们 这 里 单独 考虑 每 个 基因 的 方法 
仍然 是 处 理 这 类 问题 最 常见 的 方法 。 不 过 ， 也 有 其 他 方法 在 考虑 基因 之 
间 相 互 依赖 的 基础 上 来 估计 特征 的 重要 性 。 例 如 ，RELIEF 方 法 (Kira 
and Rendel, 1992; Kononenko etal., 1997) 。 














我 们 这 里 用 尝试 的 四 分 位 距 (IQR) 界限 值 来 剔除 那些 变动 性 很 小 
的 基因 。 即 ， 我 们 将 剔除 变动 性 小 于 总 体 IQR 15 的 所 有 基因 。 添 加 包 
genefilter 中 的 函数 nsFilter0 可 以 用 于 这 种 过 滤 任 务 。 代 人 码 如 下 : 


> library (genefilter) 
> ALLb <- nsFilter(ALLb, 


+ var.func=IQR, 

+ var. cutoff=IQR(as.vector(es))/5, 
+ feature. exclude=""AFFX") 

> ALLb 

$eset 


ExpressionSet (storageMode: lockedEnvironment) 
assayData: 4035 features, 94 samples 
element names: exprs 
phenoData 
sampleNames: 01005, 01010, ..., LALS (94 total) 
varLabels and varMetadata description: 
cod: Patient ID 
diagnosis: Date of diagnosis 


mol.bio: molecular biology 
(22 total) 
featureData 
featureNames: 41654_at, 35430_at, ..., 3437i_at (4035 total) 
fvarLabels and fvarMetadata description: none 
experimentData: use 'experimentData(object)' 
pubMedIds: 14684422 16243790 
Annotation: hgu95av2 


$filter.log 
$filter.log$numLowVar 
[1] 4764 


$filter.log$numDupsRemoved 
[1] 2918 


$filter.log$feature.exclude 
[1] 19 


$filter.log$numRemoved.ENTREZID 
[1] 889 


从 结果 中 可 知 ， 过 滤 后 的 基因 从 原来 的 12625 个 变 为 剩 下 的 4035 


个 。 这 是 相当 显著 的 减少 。 考 虑 到 我 们 只 有 94 个 观测 值 ， 因 此 对 于 我 们 
类 任务 来 说 ， 过 小 后 的 基因 个 数 仍然 太 大 。 


函数 nsFilter0 的 结果 是 一 个 含有 多 个 元 素 的 列表 。 其 中 的 多 个 元 率 
包含 被 剔除 基因 的 信息 ， 而 且 元 素 eset 含 有 选 出 的 基因 对 象 。 有 了 过 波 
的 结果 之 后 ， 我 们 可 以 用 选 出 的 对 象 来 更 新 ALLb 对 象 和 es 对 象 ， 代 码 
如 下 : 


> ALLb <- ALLb$eset 
> es <- exprs(ALLb) 
> dim(es) 


[1] 4035 94 


[1] A-AA, TRA T VAR LH BR JA system.time) Hk, WE 
它们 在 运行 效率 上 的 区 别 。 
[2] 在 所 有 的 数据 中 ，75% 的 数据 点 小 于 第 3 个 四 分 位 数 相 应 的 点 ，259%0 


的 数据 点 小 于 第 1 个 四 分 位 数 相应 的 点 。 译 者 注 





5.3.2 ANOVA 过 滤 





如 宁 一 个 基因 表达 水 平 的 分 布 在 目标 变量 的 所 有 可 能 值 上 类 似 ， 则 
可 以 确定 这 个 基因 无 助 于 区 分 这 些 目标 变量 值 。 我 们 的 下 一 个 方法 就 是 
基于 这 点 。 我 们 将 比较 同一 类 B 细 胞 ALL 突 变样 本 所 在 数据 子 集 的 基因 
表达 水 平 的 均值 ， 即 在 同一 目标 变量 值 条 件 下 的 基因 均值 。 如 果 统 计 上 
有 很 大 信心 认为 一 个 基因 的 表达 水 平均 值 在 属于 每 一 类 突变 的 样本 组 上 
没有 显著 区 别 ， 那 么 这 些 基因 可 以 被 排除 在 进一步 分 析 之 外 。 

















可 以 用 因子 分 析 CANOVA) 来 比较 多 于 两 个 的 组 的 均值 。 在 我 们 
的 案例 研究 中 ， 我 们 有 4 组 案例 ， 每 一 组 相应 于 一 个 类 型 的 B 细 胞 ALL 基 
因 突 变 。 借 助 于 R 的 添加 包 genefilter， 可 以 在 R 中 很 容易 地 进行 这 种 基于 
ANOVA 的 过 小 。 这 种 类 型 过 小 的 代码 如 下 : 


> f <- Anova(ALLb$mol.bio, p = 0.01) 
> ff <- filterfun(f) 
> selGenes <- genefilter(exprs(ALLb), ff) 


> sum(selGenes) 
[1] 752 


> ALLb <- ALLb[{selGenes, J 
> ALLb 
ExpressionSet (storageMode: lockedEnvironment) 
assayData: 752 features, 94 samples 
element names: exprs 
phenoData 
sampleNames: 01005, 01010, ..., LAL5 (94 total) 
varLabels and varMetadata description: 
cod: Patient ID 
diagnosis: Date of diagnosis 
mol.bio: molecular biology 
(22 total) 
featureData 
featureNames: 266_s_at, 33047_at, ..., 40698_at (752 total) 
fvarLabels and fvarMetadata description: none 
experimentData: use 'experimentData(object)' 
pubMedIds: 14684422 16243790 
Annotation: hgu95av2 


函数 Anova0 创 建 了 一 个 新 的 函数 来 执行 ANOVA 方差 分 析 ) 过 
滤 ， 它 需要 一 个 因子 来 给 出 数据 集 的 组 别 和 一 个 统计 显著 性 水 平 。 该 函 
数 的 结果 保存 在 变量 f 中 。 函 数 filterfun0 的 原理 类 似 ， 它 给 出 一 个 用 于 
表达 垂 阵 的 过 滤 函 数 。 它 应 用 函数 genefilter0 产 生 一 个 向 量 ， 向 量 的 元 
素 为 逻辑 值 ， 向 量 中 元 素 的 个 数 和 给 定 的 表达 和 矩阵 中 基因 的 个 数 相 同 。 
按照 ANOVA 统 计 检 验 ， 如 果 疝 量 的 值 为 TRUE， 则 认为 相应 的 基因 是 





有 用 的 。 从 结果 可 知 ， 只 有 752 个 有 用 基因 。 最 后 ， 可 以 用 这 个 向 量 来 
对 ExpressionSet 对 象 进行 过 滤 。 图 5-3 给 出 了 ANOVA 检 验 所 选 出 的 基因 
的 中 位 数 和 四 分 位 距 。 下 面 的 代码 用 于 绘制 图 5-3: 


> es <- exprs(ALLb) 
> plot (rowMedians (es) ,rowIQRs(es), 


+ xlab='Median expression level', 
+ ylab='IQR expression level’, 
+ main='Distribution Properties of the Selected Genes') 





从 图 5-3 可 知 ， 用 中 位 数 和 四 分 位 距 来 衡量 的 基因 的 变化 性 提供 了 
证 据 ， 表 明 这 些 基因 表达 的 取 值 的 标 度 很 不 相同 。 如 果 摘 述 记 录 的 一 组 
变量 的 标 度 人 不同， 许多 建 模 拉 巧 将 会 叶 致 问题 。 也 就 是 说 ， 那 些 依 赖 于 
记录 之 间距 离 的 建 模 方法 将 会 有 问题 ， 因 为 距离 函数 一 般 是 变量 之 间 差 
值 的 总 和 。 因 此 ， 如 果 变 量 的 标 度 相 兰 很 大 ， 那 么 具有 较 大 均值 的 变量 
将 对 样本 间 的 距离 有 较 大 的 影响 。 为 了 避免 这 个 问题 ， 一 般 要 对 数据 进 
行 标准 化 ， 即 减 去 变量 的 典型 取 值 ， 然 后 除 以 变量 的 一 个 变动 性 指标 。 
考虑 到 不 是 所 有 的 建 模 技 术 孝 会 受到 变量 不 同 标 度 的 影响 ， 因 此 我 们 把 
变量 的 标准 化 问题 放 到 建 模 阶 段 ， 这 样 是 否 进行 标准 化 将 依赖 于 所 应 用 
的 工具 。 























IQR expression level 





5-3 最终 的 基因 集合 的 中 位 数 和 四 分 位 距 的 散 点 图 


5.3.3 ”用 随机 和 森林 进行 过 涯 





尽管 从 ANOVA 过 滤 得 到 的 表达 水 平 沧 阵 的 变量 个 数 还 是 多 于 观测 
值 的 个 数 ， 但 这 已 经 在 可 以 建 模 的 范围 之 内 。 实 际 上 ， 我 们 在 5.4 市 下 
应 用 这 个 矩阵 进行 建 模 。 然 而 ， 有 人 可 能 要 问 ， 是 否 有 更 好 的 方法 ， 从 
而 得 到 具有 更 “标准 ” 维 数 的 数据 集 。 事 实 上 ， 我 们 可 以 尝试 进一步 减少 
特征 的 个 数 ， 然 后 比较 用 不 同 的 数据 集 得 到 的 结果 。 














可 以 用 随机 森林 得 到 变量 对 分 类 任务 有 用 程度 的 排序 。 在 3.3.2 市 的 
预测 问题 中 ， 我 们 用 随机 森林 得 到 了 变量 对 预测 任务 重要 性 的 排序 。 


在 演示 随机 森林 方法 之 前 ， 先 更 改 基因 的 名 称 。 现 在 基因 的 名 称 不 
是 许多 建 模 技 术 所 应 用 的 数据 框 所 期 己 的 标准 名 称 。 可 以 应 用 函数 
make.names() 来 “解决 ”这 个 问题 ， 代 码 如 下 : 


> featureNames (ALLb) <- make.names(featureNames (ALLb)) 
> es <- exprs(ALLb) 


函数 featureNames() 用 来 获取 ExpressionSet 对 象 中 基因 的 名 称 。 





应 用 下 面 的 代码 ， 使 用 随机 森林 来 获取 基因 的 排序 : 


> library (randomForest) 

> dt <- data.frame(t(es), Mut = ALLb$mol.bio) 

> rf <- randomForest(Mut ~ ., dt, importance = T) 

> imp <- importance(rf) 

> imp <- imp[, ncol(imp) - 1] 

> rf.genes <- names(imp)[order(imp, decreasing = T)[1:30]] 

我 们 把 基因 突变 信息 加 入 到 表达 矩阵 的 转 置 矩 阵 中 ， 从 而 构造 出 训 

练 集 数据 由 。 然 后 调用 随机 森林 函数 ， 把 参数 importance 设 为 TRUE， 
这 样 就 得 到 了 变量 重要 性 的 估计 值 。 函 数 importance0O 用 来 得 到 每 个 变量 
和 目标 变量 的 相关 程度 ， 按 照 不 同 的 准则 ， 它 在 不 同 的 列 返 回 每 一 个 分 
类 值 的 分 数 。 其 中 一 个 列 用 来 衡量 当 每 个 变量 被 依次 剔除 后 ， 分 类 精确 
度 平均 减少 的 估计 值 ， 选 择 该 列 作 为 变量 的 重要 性 分 值 。 最 后 ， 选 择 出 
现在 变量 重要 性 分 值 前 30 的 基因 。 




















我 们 可 能 想 知 道 这 30 个 基因 的 表达 水 平 在 所 有 不 同 突 变 类 型 上 的 分 
布 情况 。 可 以 用 下 面 的 代码 获得 这 30 个 基因 的 中 位 数 水 平 : 


> sapply(rf.genes, function(g) tapply(dt[, g], dt$Mut, median)) 


X40202_at X1674_at X1467_at X1635_at X37015_at X34210_at 
ALL1/AF4 8.550639 3.745752 3.708985 7.302814 3.752649 5.641130 
BCR/ABL 9.767293 5.833510 4.239306 8.693082 4.857105 9.204237 
E2A/PBX1 7.414635 3.808258 3.411696 7.562676 6.579530 8.198781 
NEG 7.655605 4.244791 3.515020 7.324691 3.765741 8.791774 
X32116_at X34699_at X40504_at X41470_at X41071_at X36873_at 
ALL1/AF4 7.115400 4.253504 3.218079 9.616743 7.698420 7.040593 
BCR/ABL 7.966959 6.315966 4.924310 5.205797 6.017967 3.490262 
E2A/PBX1 7.359097 6.102031 3.455316 3.931191 6.058185 3.634471 
NEG 7.636213 6.092511 3.541651 4.157748 6.573731 3.824670 
X35162_s_at X38323_at X1134_at X32378_at X1307_at X1249_at 
ALL1/AF4 4.398885 4.195967 7.846189 8.703860 3.368915 3.582763 
BCR/ABL 4.924553 4.866452 8.475578 9.694933 4.945270 4.477659 
E2A/PBX1 4.380962 4.317550 8.697500 10.066073 4.678577 3.257649 
NEG 4.236335 4.286104 8.167493 9.743168 4.863930 3.791764 
X33774_at X40795_at X36275_at X34850_at X33412_at X37579_at 
ALL1/AF4 6.970072 3.867134 3.618819 5.426653 10.757286 7.614200 
BCR/ABL 8.542248 4.544239 6.259073 6.898979 6.880112 8.231081 
E2A/PBX1 7.385129 4.151637 3.635956 5.928574 5.636466 9.494368 
NEG 7.348818 3.909532 3.749953 6.327281 5.881145 8.455750 
X37225_at X39837_s_at X37403_at X37967_at X2062_at X35164_at 
ALL1/AF4 5.220668 6.633188 5.888290 8.130686 9.409753 5.577268 
BCR/ABL 3.460902 7.374046 5.545761 9.274695 7.530185 6.493672 
E2A/PBXi1 7.445655 6.708400 4.217478 8.260236 7.935259 7.406714 
NEG 3.387552 6.878846 4.362275 8.986204 7.086033 7.492440 


从 结果 中 可 以 观测 到 ， 不 同类 型 突变 的 基因 的 中 位 数 表达 水 平 的 区 
别 ， 它 也 给 出 了 这 些 基因 用 于 分 类 的 区 别 能 力 。 我 们 可 以 用 图 形 方式 来 
检查 这 94 个 样本 的 具体 基因 表达 水 平 的 值 ， 可 以 获取 更 多 的 细节 : 











> library(lattice) 
> ordMut <- order(dt$Mut) 
> levelplot (as.matrix(dt [ordMut ,rf.genes]), 


+ aspect='fill', xlab="', ylab=", 

+ scales=list( 

+ x=list( 

+ labels=c('+','-','*','/') [as. integer (dt$Mut [ordMut])], 
+ cex=0.7, 

+ tck=0) 

+ ), 

+ main=paste(paste(c('"+"!,!"-"!,'"x™ 1" "), 

+ levels (dt$Mut) 

+ ), 

+ collapse='; '), 

十 col.regions=colorRampPalette(c('white','orange','blue')) 
+ ) 





上 面 代码 获得 的 图 形 如 图 5-4 所 示 。 注 意 ， 有 几 个 基因 在 不 同 突变 
类 型 上 的 表达 水 平 显著 不 同 。 例 如 ， 基 因 X36275_at 的 表达 水 平 在 突变 
ALL1/AF4 和 突变 BCR/ABL 之 间 显 车 不 同 。 在 上 面 的 绘图 代码 中 ， 我 们 
应 用 了 添加 包 lattice 的 函数 levelplot()。 该 函数 可 以 绘制 一 个 数值 矩阵 的 

彩色 图 形 。 这 里 我 们 用 这 个 函数 来 绘制 按照 突变 类 型 来 排序 的 样本 表达 
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图 5-4 94 个 样本 的 30 个 基因 的 表达 水 平 
注意 表达 短 阵 的 行 代 表 基 因 ( 即 变 量 ) 。 


5.3.4 ”用 特征 聚 类 的 组 合 进行 过 渡 


本 节 用 聚 类 算法 得 到 了 30 个 变量 类 ， 假 设 每 个 类 中 的 变量 相似 。 用 
这 30 个 变量 类 来 得 到 组 合 分 类 模型 。 组 合 分 类 模型 由 m 个 模型 构成 ， 
个 模型 是 由 30 个 变量 来 获得 的 ， 其 中 每 个 变量 是 从 这 30 个 变量 类 中 随机 
选择 的 。 





组 合 方法 是 一 种 学 习 方 法 ， 它 构建 一 组 组 合 模 型 ， 然 后 用 这 组 模型 
对 新 记录 的 预测 值 的 茶 种 形式 的 平均 来 对 该 记录 进行 分 类 。 就 目前 所 
知 ， 组 合 方法 的 性 能 常常 超过 组 成 它 的 单个 模型 。 组 合 模型 基于 单个 柑 
型 间 的 茶 种 形式 的 多 样 性 。 有 多 种 形式 来 创建 这 种 多 样 性 的 模型 。 例 
如 ， 可 以 通过 不 同 的 模型 参数 ， 或 者 每 个 模型 用 不 同 的 训练 集 数 据 来 获 
得 不 同 的 模型 。 力 一 种 多 样 性 方式 是 用 不 同 的 预测 变量 来 得 到 组 合 中 的 
每 个 模型 。 本 市 的 组 合 方法 将 采用 后 一 种 方法 。 如 果 用 于 获取 聚 类 的 原 
始 预 测 变 量 集 合 有 高 度 的 见 余 ， 那 么 这 种 方法 将 很 稚 效 。 假 设 ANOVA 
过 滤 得 到 的 变量 有 某 种 程度 的 元 余 。 我 们 通过 变量 聚 类 对 这 种 元 余 性 进 
行 建 模 。 聚 类 方法 基于 距离 ， 本 和 容 例 中 是 变量 间 的 距离 。 如 朵 两 个 变量 
的 表达 水 平 在 94 个 样本 上 相似 ， 那 么 这 两 个 变量 就 是 接近 的 《所 以 它们 
是 相似 的 ) 。 通 过 变量 聚 类 ， 我 们 期 望 找到 相互 类 似 的 基因 组 。 添 加 包 
Hmisc 有 一 个 函数 实现 了 数据 集 变 量 的 层次 聚 类 法 ， 该 函数 是 varclus()。 
下 面 给 出 用 该 函数 进行 变量 聚 类 的 代码 : 























> library(Hmisc) 

> yc <- varclus(t(es)) 

> clus30 <- cutree(vc$hclust, 30) 
> table(clus30) 


clus30 

123 4 85 6 FF 8 § 10 11 12 18 14 15 16 17 18 19 20 21 22 23 24 25 
27 26 18 30 22 18 24 46 22 20 24 18 56 28 47 32 22 31 18 22 18 33 20 20 21 
26 27 28 29 30 

17 9 19 30 14 


我 们 应 用 函数 cutree() 得 到 了 由 30 个 变量 组 形成 的 聚 类 。 然 后 ， 检 查 
每 个 组 中 有 多 少 变 量 〈 即 基因 ) 。 基 于 这 个 聚 类 ， 我 们 可 以 通过 在 每 个 
变量 组 中 随机 选取 一 个 变量 来 构成 我 们 的 预测 变量 集合 。 理 由 是 每 一 个 
变量 组 的 成 员 变 量 是 类 似 的 ， 因 此 有 茶 种 程度 的 见 余 。 





为 了 方便 通过 随机 抽样 从 选 定 个 数 的 变量 组 (默认 30 组 〉 中 得 到 一 
组 变量 ， 下 面 的 函数 实现 了 这 个 过 程 : 





í 


> 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 


+ 


+4 


if (verb) 
else 


cls <- cutree(cluster,nvars) 
tots <- table(cls) 
vars <- c() 
vars <- sapply(1:nvars,function(clID) 


if (!is.null(seed)) set.seed(seed) 


getVarsSet <- function(cluster,nvars=30,seed=NULL, verb=F) 


if (!length(tots[clID])) stop('Empty cluster! (',c1ID,')') 
x <- sample(1:tots[clID],1) 


names (cls[cls==clID]) [x] 


}) 


> getVarsSet (vc$hclust) 


[1] 
[6] 
[11] 
[16] 
[21] 
[26] 


"X41346_at" 
"X649_s_at" 
"X36083_at" 
"X40495_at" 
"X39135_at" 
"X37024_at" 


"X33047_at" 
"X41672_at" 
"X34964_at" 
"X40419_at" 
"X34798_at" 
"X32585_at" 


> getVarsSet (vc$hclust) 


[1] 
[6] 
[11] 
[16] 
[21] 
[26] 


H 


集 进 行 建 模 。 
特征 选择 算 
在 许多 


"X40589_at" 
"X32842_at" 
"X1462_s_at" 


"X38488_s_at" 


"X38631_at" 
"X1788_s_at" 


"X33598_r_at" 


"X37951_at" 


"X31751_f_at" 


"X32542_at" 
"X37718_at" 
"X38271_at" 


每 次 调用 这 个 函数 ， 都 得 到 新 的 
以 容易 得 到 由 不 同 的 预测 变量 所 构成 的 


法 的 参考 文献 


"X1044_s_at" 
"X36845_at" 
"X35228_at" 
"X1173_g_at" 
"X39649_at" 


"X41184_s_at" 


"X41015_at" 
"X35693_at" 
"X34176_at" 
"X32961_at" 
"X948_s_at" 
"X37610_at" 


structure (vars, clusMemb=cls, clusTots=tots) 
vars 


"X38736_at" 
"X40771_at" 
"X40855_at" 
"X40088_at" 
"X39774_at" 
"X33305_at" 


"X38999_s_at" 


"X36874_at" 
"X40855_at" 
"X32321_at" 
"X38223_at" 
"X33936_at" 


一 组 30 个 变量 。 通 过 这 个 
一 组 数据 集 ， 


"X39814_s_at" 
"X38370_at" 
"X41038_at" 
"X879_at" 
"X39581_at" 
"X41266_at" 


"X37027_at" 
"X41796_at" 
"X1583_at" 
"X879_at" 
"X34256_at" 
"X36899_at" 


PAL, FY 


然后 用 每 一 个 数据 
在 5.4 节 ， 我 们 给 出 用 这 种 策略 来 获取 组 合 模型 的 函数 。 


学 科 中 ， 特 征 选择 都 是 一 个 充分 研究 的 主题 。 在 数据 挖 气 领 


域 中 有 关 该 主题 的 优秀 概述 文章 和 参考 资料 是 Liu 和 Motoda (1998) 、 


Chizi 和 Maimon (2005) 以 及 Wettscheteck 等 (1997) 。 


5.4 We Soe A HITRI 


5.4.1 定义 预测 任务 





我 们 面 对 的 数据 挖掘 问题 是 一 个 预测 问题 。 精 确 地 说 ， 它 是 一 个 分 
类 问题 。 预 测 分 类 任务 包含 用 一 组 预测 变量 的 信息 来 预测 一 个 名 义 目 标 
变量 取 值 的 建 模 过 程 。 用 一 组 已 经 知道 其 所 研究 的 对 象 所 属 分 类 的 观测 
值 来 得 到 模型 ， 也 就 是 说 ， 这 些 观测 值 的 预测 变量 的 值 和 目标 变量 的 值 
是 已 知 的 。 


在 本 案例 中 ， 目 标 变量 是 B 细 胞 ALL 样 本 的 遗传 学 异常 分 类 。 在 我 
们 所 选 的 数据 集中 ， 这 个 变量 有 4 个 可 能 的 取 值 : ALL1/AF4、 
BCR/ABL、E2A/PBX1 和 NEG。 预 测 变量 由 一 组 选 定 的 基因 构成 ， 基 因 
的 表达 水 平 是 已 知 的 。 在 建 模 过 程 中 ， 基 于 5.3 节 的 内 容 ， 我 们 用 选 定 
基因 的 不 同 集合 来 尝试 建 模 。 这 意味 着 随 着 这 些 实验 的 不 同 ， 预 测 变 量 
的 个 数 《〈 特 征 ) 会 变化 。 观 测 值 由 94 个 B 细 胞 ALL 个 案 构 成 。 














5.4.2 ”模型 评价 标准 





预测 任务 是 一 个 分 类 问题 。 预 测 分 类 模型 通常 用 误 分 率 或 者 它 的 对 
立 面 一 一 正确 率 来 衡量 。 然 而 ， 也 有 其 他 的 评价 预测 分 类 模型 的 标准 ， 
例如 在 ROC 曲 线 下 的 面积 、 配 对 的 指标 〈( 即 决策 精确 度 和 回溯 精确 度 ) 
以 及 类 概率 估计 的 正确 率 〈 即 ，Brier 分 数 ) 。R 的 添加 包 ROCR 给 出 了 
这 些 评价 标准 很 好 的 例子 。 











一 个 问题 评价 标准 的 选择 常常 取决 于 用 户 的 目的 。 由 于 信息 不 完 
整 ， 选 择 评价 标准 常常 是 一 个 困难 的 决策 ， 例 如 缺乏 错误 地 把 本 来 属于 


类 i 的 个 案 分 类 到 类 j 损 失 的 信息 《〈 误 分 类 信息 ) 。 





在 本 章 的 案例 研究 中 ， 我 们 没有 误 分 类 损失 的 信息 。 因 此 ， 这 里 假 
设 每 个 误 分 类 的 严重 程度 是 相同 的 ， 例 如 把 一 个 属于 类 E2A/PBX1 突 变 
误 分 为 类 NEG 的 损失 和 把 类 ALL1/AF4 误 分 为 类 BCR/ABL 的 损失 相等 。 
另外 ， 我 们 有 两 个 以 上 的 分 类 ， 而 ROC 分 析 还 没有 很 好 地 推广 到 多 类 问 
题 。 另 外 ， 近 来 发 现 应 用 ROC 曲 线 下 的 面积 有 缺陷 问题 (Hand, 
2009) 。 基 于 上 面 的 分 析 ， 我 们 用 标准 的 准确 率 评价 标准 ， 定 义 为 : 


N 


一 ] A 
ace = 1 -yo Lon (Fi) (5-1) 


这 里 N 是 测试 样本 的 大 小 ， 而 Lon 0 是 损失 函数 ， 其 定义 如 下 : 


3 0 
Lon (5%) = k (5-2) 


5.4.3 KRITE 


这 里 的 数据 集中 观测 值 的 个 数 很 少 : 只 有 94 个 个 和 案 。 这 种 情况 下 ， 

得 到 这 类 问题 误 分 率 可 靠 估 计 的 较 好 实验 方法 是 弃 一 交叉 验证 法 
(LOOCV) 。LOOCV 是 我 们 前 面 应 用 的 k 折 交叉 验证 实验 方法 的 一 个 
特例 ， 即 k 为 观测 值 的 个 数 。 简 单 地 说 ，LOOCV 从 N-1 个 个 案 获取 一 个 
模型 ， 一 共 获 得 N 个 模型 〈N 为 数据 集 的 大 小 ) ， 每 个 模型 由 那个 没有 
用 于 建 模 的 观测 值 来 进行 验证 。 本 书 提供 的 添加 包 函 数 loocv0 实 现 了 这 
种 实验 。 这 个 函数 应 用 的 过 程 与 前 面 章节 描述 的 其 他 实验 比较 中 的 函数 
类 似 。 下 面 的 代码 用 数据 集 iris 来 演示 该 函数 的 应 用 : 











> data(iris) 
> rpart.loocv <- function(form,train,test,...) { 


require (rpart, quietly=T) 
m <- rpart(form,train,...) 
p <- predict (m,test,type='class') 
c(accuracy=ifelse(p == resp(form;test),100,0)) 
} 
exp <- loocv(learner('rpart.loocv',list()), 
dataset (Species~.,iris), 
loocvSettings (seed=1234, verbose=F) ) 


++Vtettt + 


> summary (exp) 
== Summary of a Leave One Out Cross Validation Experiment == 
LOOCV experiment with verbose = FALSE and seed = 1234 


* Dataset :: iris 
* Learner :: rpart.loocv with parameters: 
* Summary of Experiment Results: 


accuracy 
avg 93 . 33333 
std 25.02795 
min 0.00000 
max 100 . 00000 


invalid 0.00000 


函数 loocv0O 采 用 3 个 常见 的 参数 : 模型 、 数 据 集 和 实验 的 设置 。 它 
返回 一 个 loocvRun 类 对 象 ， 我 们 可 以 用 函数 summary0) 来 获取 该 类 对 象 
的 结果 。 


用 户 定 义 的 函数 〈 上 例 中 为 rpartloocvO) 运行 模型 ， 应 用 模型 获取 
测试 集 的 预测 值 ， 返 回 希 望 LOOCV 所 估计 的 评估 指标 向 量 。 在 上 面 的 
例子 中 ， 它 简单 地 计算 模型 的 正确 率 。 这 里 要 记 住 ， 在 LOOCV 过 程 


中 ， 每 一 个 实验 迭代 过 程 的 训 试 集 是 由 一 个 单一 的 观测 值 构成 ， 所 以 这 
里 我 们 只 要 检查 预测 值 是 否 等 于 真实 值 。 








5.4.4 IRIEN 


如 前 面 所 描述 ， 我 们 将 应 用 3 个 不 同 的 数据 集 ， 它 们 所 应 用 的 预测 
变量 是 不 同 的 。 一 个 数据 集 应 用 ANOVA 过 程 选 择 的 所 有 基因 ， 另 外 两 
个 从 这 些 基因 中 选择 30 个 。 所 有 的 数据 集 都 包含 94 个 B 细 胞 ALL 个 案 。 
除 目标 变量 外 ， 所 有 信息 都 是 数值 型 的 。 





为 了 解决 这 类 问题 ， 我 们 应 用 三 种 不 同 的 建 模 技术 。 在 本 书 的 前 面 
革 市 中 ， 我 们 已 经 应 用 过 其 中 的 两 种 ， 它 们 是 随机 森林 和 支持 癌 量 机 
(SVM) 。 它 们 被 认为 是 最 好 用 的 预测 方法 之 一 。 本 忆 将 尝试 的 第 三 个 
方法 是 一 个 新 的 算法 ， 它 是 一 种 基于 观测 值 之 间距 离 的 方法 ， 即 k 近 邻 
方法 。 


基于 随机 森林 的 模型 特别 适合 于 处 理 有 大 量 特征 的 问题 。 这 个 特征 
来 源 于 随机 森林 方法 所 应 用 的 算法 ， 它 从 问题 的 所 有 原始 变量 中 随机 选 
择 一 个 子 集 进 行 建 模 〈 人 参见 5.4.4.1 节 ) 。 而 选择 k 近 邻 方法 ， 其 动机 是 
基于 这 样 的 假定 : 同一 类 型 的 突变 样本 有 类 似 的 基因 “签名 ”， 即 在 用 于 
描述 这 些 样本 的 基因 上 有 类 似 的 表达 值 。 这 个 假定 的 有 效 性 极 大 地 依赖 
于 所 选 定 的 描述 样本 的 基因 。 也 就 是 说 ， 这 些 基 因应 该 能 够 很 好 地 区 分 
不 同 的 突变 类 型 。 在 5.4.4.2 节 可 以 看 到 ，k 近 邻 方法 利用 了 个 案 之 间 的 
相似 性 ， 因 此 应 该 满足 上 面 的 假定 。 最 后 ， 文 持 向 量 机 用 来 尝试 找到 基 





因 表达 和 遗传 学 异种 可 能 存在 的 非 线性 关系 。 





3.4.2.2 市 描述 了 文 持 问 量 机 ， 它 们 是 高 度 非 线 性 的 模型 ， 可 以 用 于 
回归 和 分 类 问题 。 而 且 ， 在 R 的 多 个 不 同 的 文 持 向 量 机 实现 中 ， 我 们 选 
用 添加 包 e1071 的 svmO 函 数 。 








5.4.4.1 ”随机 森林 


随机 森林 是 组 合 模型 的 一 个 例子 〈Breiman，2001) ， 也 就 是 说 ， 

它 古 由 一 组 较 人 简单 模 型 形成 的 。 特 别 地 ， 随 机 森林 由 一 组 决 琐 树 构成 ， 
取决 于 分 析 的 问题 采用 回归 树 还 是 分 类 树 。 用 户 决 定 组 合 中 树 的 数量 。 
每 棵 树 都 是 通过 自助 法 抽样 进行 训练 的 ， 自 助 法 抽样 从 原始 数据 集中 用 
有 放 回 抽样 法 随机 抽取 NN 个 个 采 ， 这 里 N 是 数据 集中 个 案 的 个 数 。 每 一 
个 这 样 的 训练 集 获 得 一 个 不 同 的 树 。 仅 仅 考虑 原始 问题 预测 变量 的 一 个 
随机 子 集 来 决定 这 些 树 的 每 一 个 结 点 ， 这 些 随 机 子 集 大 小 应 该 大 大 小 于 
数据 集 预 测 变 量 的 个 数 。 这 些 树 完 全 生长 ， 也 就 是 说 ， 它 们 没有 任何 事 
后 勇 校 。 有 关 如 何 获得 基于 树 的 模型 的 细节 ， 人 参见 2.6.2 节 。 





采用 每 棵 树 的 预测 值 的 平均 值 作为 这 些 组 合 的 预 调 值 。 对 于 分 类 问 
题 ， 则 采用 投标 机制。 对 于 回归 问题 ， 对 每 一 标 树 的 预测 值 进行 平均 得 
到 随机 森林 的 预测 值 。 


在 R 中 ， 随 机 森林 由 添加 包 randomForest 实 现 。 本 书 已 经 给 出 了 多 
个 应 用 该 包 中 的 随机 森林 函数 来 进行 特征 选择 的 例子 。 


随机 森林 模型 的 参考 文献 


随机 森林 模型 可 以 参考 Breiman (2001) 的 原始 文献 。 也 可 以 访问 网 
站 http://stat-www.berkeley.edu/users/breiman/RandomForests/ 得 到 随机 森 


林 模 型 的 更 多 资料 。 


5.4.4.2 ”kk 近邻 方法 





k 近 邻 方法 属于 懒惰 学 习 算 法 。 这 类 算法 实际 上 没有 从 训练 数据 得 
到 一 个 模型 。 它 们 简单 地 存储 这 个 训练 集 数据 。 算 法 的 主要 工作 在 于 预 
测 时 。 给 一 个 新 的 测试 个 案 ， 它 会 在 存储 的 训练 集中 寻找 类 似 的 个 案 作 
为 预测 值 。k 个 最 相似 的 训练 集 个 案 被 用 来 得 到 给 定 测 斌 个案 的 预测 
值 。 在 分 类 问题 中 ， 预 测 值 通过 投票 方法 得 到 ， 因 此 选用 的 k 值 最 好 为 
奇数 。 然 而 ， 一 些 更 精细 的 投票 方法 也 可 能 会 考虑 到 测试 个 采 与 k 个 近 
邻 中 每 一 个 的 距离 。 对 于 回归 问题 ， 它 采用 这 k 个 邻近 个 案 目 标 变量 的 
均值 而 不 是 投票 。 





这 类 模型 严重 依赖 于 个 案 之 间 相 似 性 的 标记 方式 。 这 类 相似 性 的 标 
记 通 常 由 预测 变量 所 定义 的 输入 空间 上 的 一 个 测度 来 定义 。 这 个 测度 是 
一 个 距离 函数 ， 它 用 来 计算 代表 任何 两 个 观测 值 之 间 差 异 的 一 个 数值 。 
有 多 个 距离 函数 ， 常 见 的 是 欧 开 距离 函数 ， 定 义 如 下 : 














d(xX;,X;) = 


这 里 p 代 表 预 测 变 量 的 个 数 ，x; 和 x 是 两 个 观测 值 。 





这 里 的 距离 对 于 所 选择 的 变量 标 度 和 变量 的 相关 性 很 敏感 ， 它 们 可 
能 扭曲 相似 性 标记 。 史 外， 变量 的 标 度 应 该 是 一 致 的 ， 否 则 可 能 低估 一 
些 较 低 均值 的 变量 间 的 差异 。 





选择 近邻 个 案 数 k 也 是 这 类 方法 的 一 个 重要 参数 。 常 见 的 k 值 选择 为 
{1，3，5，7，11} ， 但 这 仅仅 是 经 验 值 。 但 是 ， 要 避免 选择 较 大 的 k 
值 ， 这 样 有 可 能 会 选用 远离 测试 个 案 的 样本 。 显 然 ， 这 取决 于 训练 集 数 
据 的 密度 。 太 稀疏 的 数据 集 更 可 能 导致 这 种 风险 。 和 其 他 训练 模型 一 
样 ，“ 理 想 ” 的 参数 选择 可 以 通过 一 些 实验 方法 来 估计 。 在 R 中 ， 添 加 包 
class (Venables and Ripley, 2002) 中 所 包含 的 函数 knn0O 实 现 了 k 近 邻 方 
法 。 下 面 用 数据 集 iris 给 出 这 个 函数 的 一 个 示例 : 











> library(class) 

> data(iris) 

> idx <- sample(1:nrow(iris), as.integer(0.7 * nrow(iris))) 
> tr <- irisf[idx, ] 

> ts <- iris[{-idx, J 

> preds <- knn(tr[, -5], tal, -5], tr{, 5], k = 3) 

> table(preds, ts[, 5]) 


preds setosa versicolor virginica 
setosa 14 0 0 
versicolor 0 14 2 
virginica 0 1 14 


从 上 面 代 码 可 知 ， 函 数 knnO 应 用 的 是 一 个 非 标准 的 用 户 界 面 。 第 一 





个 参数 是 除了 目标 变量 所 在 列 以 外 的 训练 集 数据 ;第 二 个 参数 是 测试 
集 ， 同 样 不 包含 目标 变量 值 ， 第 三 个 参数 是 训练 集 数据 的 目标 变量 值 ; 
最 后 是 其 他 几 个 控制 本 方法 的 参数 ， 其 中 参数 k 控 制 近邻 的 个 数 。 可 以 
创建 一 个 函数 以 更 加 标准 的 公式 形式 的 界面 来 应 用 函数 knn()， 代 码 如 


F: 





> kNN <- function(form, train, test, norm = T, norm.stats = NULL, 
caD E 
require(class, quietly = TRUE) 
tgtCol <- which(colnames(train) == as.character(form[[2]])) 
if (norm) { 
if (is.null(norm.stats)) 
tmp <- scale(train[, -tgtCol], center = T, scale = T) 
else tmp <- scale(train[, -tgtCol], center = norm.stats[[1]], 
scale = norm.stats[[2]]) 
train[, -tgtCol] <- tmp 
ms <- attr(tmp, "scaled:center") 
ss <- attr(tmp, "scaled:scale") 
test[, -tgtCol] <- scale(test[, -tgtCol], center = ms, 
scale = ss) 
} 
knn(train[, -tgtCol], test[, -tgtCol], train[, tgtCol], 
eas 


teeter eereeett te t+ 


+ 


se 
> preds.norm <- kNN(Species ~ ., tr, ts, k = 3) 
> table(preds.norm, ts[, 5]) 


preds.norm setosa versicolor virginica 


setosa 14 0 0 
versicolor 0 14 3 
virginica 0 1 13 


> preds.notNorm <- kNN(Species ~¢ EE, Ca, Sor =F, k= op 
> table(preds.notNorm, ts[, 5]) 


preds.notNorm setosa versicolor virginica 
setosa 14 0 0 
versicolor 0 14 2 
virginica 0 1 14 


上 述 函 数 允 许 用 户 指明 是 否 在 调用 函数 knn0 之 前 对 数据 进行 标准 
化 。 这 通过 参数 norm 来 完成 。 在 上 面 的 例子 中 ， 有 两 个 应 用 它 的 例子 。 
第 三 个 选择 是 给 参数 norm.stats 提 供 一 个 两 元 系 的 列表 ， 列 表 的 两 个 元 素 
分 别 给 出 中 心 化 和 离散 程度 统计 量 。 如 果 没 有 应 用 参数 norm.stats， 那 么 
函数 将 应 用 均值 作为 中 心 的 估计 值 ， 用 标准 差 作 为 离散 程度 的 佑 计 值 。 
在 我 们 的 实验 中 ， 我 们 将 用 中 位 数 和 四 分 位 距 作 为 参数 来 调用 函数 。 在 
本 书 提 供 的 R 添 加 包 中 包含 了 函数 KNNO， 因 此 你 不 必 手 工 输入 以 上 代 
码 。 





k 近 邻 方 法 的 参考 文献 


这 类 方法 的 标准 参考 文献 是 Cover 和 Hart (1967) 的 文章 。 该 方法 很 
好 的 概述 可 以 参考 Aha 等 (1991) 的 文章 以 及 Aha (1997) 的 文章 。 更 深 
入 的 分 析 可 以 参考 Aha (1990) 的 博士 论文 以 及 Wettschereck (1994) 的 
文章 。 一 个 不 同 于 懒惰 学 习 但 是 相关 的 方法 是 所 谓 的 “局 部 模 
型 ” (Nadataya，1964; Watson，1964) 。 这 方面 的 优秀 文献 有 Atkeson 


等 (1997) 的 文章 ，Cleveland 和 Loader (1996) 的 文章 。 


5.4.5 ”模型 比较 





本 节 描 述 应 用 LOOCC 实 验方 法 来 比较 所 选 模型 的 过 程 。 


在 5.3 节 ， 我 们 学 习 了 几 个 特征 选择 的 例子 。 我 们 用 基本 的 过 滤 法 
删除 了 较 小 变化 的 基因 和 对 照 探 针 。 下 一 步 ， 我 们 应 用 基于 表达 水 平 在 
目标 变量 上 的 条 件 分 布 方法 ， 该 方法 是 基于 ANOVA 统 计 检 验 。 最 后 ， 
从 ANOVA 检 验 的 结果 中 ， 我 们 尝试 应 用 随机 森林 和 变量 聚 类 方法 来 进 
一 步 减少 基因 的 数目 。 除 了 第 一 个 简单 的 过 滤 法 外 ， 所 有 其 他 方法 都 某 
种 程度 依赖 于 目标 变量 的 值 。 我 们 可 能 怀疑 这 些 过 滤 阶 段 是 否 可 以 在 实 
验 比较 之 前 进行 ， 或 者 是 否 可 以 把 这 些 过 滤 过 程 集成 到 比较 过 程 中 。 如 
果 目 的 是 获得 对 新 样本 分 类 正确 率 的 无 偏 估计 ， 那 么 我 们 应 该 把 这 些 过 
滤 过 程 作为 需要 评估 和 比较 的 数据 挖掘 过 程 的 一 部 分 。 否 则 ， 它 意味 着 
我 们 得 到 的 估计 是 有 偏 的 ， 因 为 应 用 测试 集 信息 去 获得 建立 模型 的 基 
因 。 事 实 上 ， 如 果 我 们 用 整个 数据 集 来 决定 应 用 哪些 基因 ， 那 么 在 这 个 
选择 过 程 中 就 应 用 了 那些 作为 测试 集 的 一 部 分 信息 ， 这 些 信息 应 该 是 未 
知 的 。 基 于 此 ， 我 们 把 过 滤 阶 段 包含 进 用 户 定义 的 函数 中 ， 这 些 函 数 实 
现 了 我 们 要 比较 的 模型 。 

















对 于 LOOCV 过 程 的 每 一 次 迭代 ， 在 创建 预测 模型 之 前 ， 只 采用 
LOOCV 函 数 提供 的 训练 集 进行 特征 选择 过 程 。 初 始 的 过 滤 过 程 将 在 


LOOCV 比 较 之 前 进行 ， 如 果 我 们 在 LOOCV 过 程 之 内 进行 简单 过 滤 过 

程 ， 那 么 这 一 步骤 中 剔除 的 基因 将 不 发 生变 化 。 对 照 探 针 总 是 被 别 除 ， 
如 果 没 有 给 出 一 个 单一 样本 ， 那 么 由 于 低 方差 被 剔除 的 基因 将 仍旧 非常 
可 能 被 吻 除 (这 是 LOOCV 过 程 每 一 次 迭代 所 做 的 )。 


我 们 将 描述 为 运行 实验 需要 提供 给 函数 LOOCV 的 用 户 定 义 函 数 。 
对 于 每 一 个 建 模 技 术 ， 我 们 将 评估 几 个 变 体 。 这 些 变 体 不 仪 在 模型 本 时 
的 几 个 参数 上 有 所 不 同 ， 而 且 它 们 所 应 用 的 特征 选择 过 程 也 不 相同 。 下 
面 的 列表 给 出 了 每 个 建 模 技 术 的 这 些 变 体 的 信息 。 





> vars <- list() 
> vars$randomForest <- list (ntree=c(500,750,100), 
r mtry=c(5,15,30), 
fs.meth=list(list(‘all'), 
list ('rf',30), 
list ('varclus' ,30,50))) 
vars$svm <- list(cost=c(1,100,500), 
gamma=c(0.01,0.001,0.0001), 
fs.meth=list(list(‘all'), 
list Crt’ 30); 
list ('‘varclus' ,30,50))) 
vars$knn <- list (k=c(3,5,7,11), 
norm=c(T,F), 
fs.meth=list(list(‘all'), 
list ('rf',30), 
list (‘varclus',30,50))) 


++ tetetvte tt evtett 





上 面 的 列表 含有 3 个 元 素 ， 每 个 元 素 对 应 于 一 个 需要 比较 的 算法 。 
对 于 每 个 模型 ， 该 列表 包含 了 应 该 用 到 的 参数 。 对 于 每 一 个 参数 ， 给 出 
了 一 组 可 选 值 。 所 有 这 些 值 的 组 合 将 决定 系统 的 不 同 变 体 。 对 于 随机 森 


林 ， 考 虑 参数 ntree 的 3 个 值 ， 它 设 定 组 合 中 树 的 个 数 。 参 数 mtry 有 3 个 

值 ， 当 用 于 确定 每 个 树 结 点 的 检验 时 ， 该 参数 决定 变量 的 随机 子 集 的 大 
小 。 最 后 一 个 参数 fs.meth 提 供 了 我 们 下 面 将 描述 的 特征 选择 阶段 的 选 

项 。 对 于 文 持 癌 量 机 ， 参 数 cost 和 参数 gamma 部 考虑 3 个 取 值 。 对 于 k 近 
邻 方法 ， 考 虑 参数 k 的 4 个 值 ， 对 于 决定 是 否 标 准 化 预测 变量 数据 的 参 

数 ， 考 虑 2 个 值 。 








如 前 所 述 ， 对 于 每 个 训练 方法 ， 我 们 考虑 3 个 不 同 的 特征 集合 (由 
参数 fs.meth 设 定 ) 。 第 一 个 选择 dist Call’) ) 应 用 ANOVA 统 计 检 验 得 
到 的 所 有 特征 。 第 二 个 选择 dist Crf'，30) ) 通过 随机 森林 排序 的 方 
法 ， 从 ANOVA 检 验 得 到 的 特征 中 选择 30 个 基因 。 最 后 一 个 选择 应 用 前 
面 描述 的 变量 聚 类 组 合 策略 选择 30 个 基因 ， 然 后 从 变量 聚 类 中 随机 选择 
30 个 预测 变量 ， 建 立 50 个 模型 的 组 合 模 型 。 为 了 实现 上 面 基 于 从 基因 育 

类 中 选择 不 同 的 变量 集 的 组 合 方法 ， 我 们 建立 下 面 的 函数 : 








> varsEnsembles <- function(tgt,train,test, 

十 varsSets, 

+ baseLearner,bilPars, 

+ verb=F) 

ales 

+ preds <- matrix(NA,ncol=length(varsSets) ,nrow=NROW(test)) 

+ for(v in seq(along=varsSets)) { 

一 if (baseLearner=='knn') 

十 preds[,v] <- knn(train[,-which(colnames(train)==tgt)], 

+ test [,-which(colnames(train)==tgt)], 

+ train[,tgt] ,blPars) 

+ else { 

+ m <- do.call(baseLearner, 

+ c(list(as.formula(paste(tgt, 

+ paste(varsSets[{v]], 
十 collapse='+'), 

+ sep='~')), 

+ train[,c(tgt,varsSets[{v]]J)]), 

+ blPars) 

+ ) 

+ if (baseLearner == 'randomForest') 

+ preds[,v] <- do.call('predict', 

十 list (m,test[,c(tgt,varsSets[[v]])], 
+ type='response' ) ) 

+ else 

+ preds{,v] <- do.call('predict', 

+ list (m,test[,c(tgt, varsSets[[v]])])) 
¥ } 

* +} 

+ ps <- apply(preds,1,function(x) 

+ levels (factor (x)) [which.max(table(factor(x)))]) 
+ ps <- factor(ps, 

+ levels=1:nlevels(train[,tgt]), 

+ labels=levels(train[,tgt])) 

+ if (verb) structure(ps,ensemblePreds=preds) else ps 

+ 


I 





上 面 函 数 的 第 一 部 分 参数 是 目标 变量 名 、 训 练 集 、 测 试 集 。 下 一 个 
参数 (varsSets) 是 一 个 含有 变量 名 〈 得 到 的 聚 类 ) 集合 的 列表 ， 我 们 





应 该 从 该 变量 集合 中 抽取 一 个 变量 作为 组 合 的 每 一 个 成 员 的 预测 变量 。 
最 后 两 个 参数 (baseLearner 和 blPars) 给 出 了 组 合 的 每 个 成 员 所 应 用 的 
训练 方法 的 函数 实现 的 名 称 以 及 相应 的 参数 列表 。 上 面 函数 的 结果 是 组 
合 方法 对 给 定 测试 集 的 预测 值 。 这 些 预 测 是 组 合 的 成 员 通 过 投票 机 制 产 

生 的 。 组 合 的 成 员 之 间 的 差别 在 于 它们 所 应 用 的 预测 变量 ， 这 些 预测 变 
量 由 参数 varsSets 确 定 。5.3.4 节 给 出 了 这 种 从 变量 聚 类 过 程 得 到 预测 变 
量 集合 的 方法 。 考 虑 到 每 一 种 训练 方法 所 进行 的 任务 是 相似 的 ， 因 此 我 
们 建立 了 一 个 用 户 定义 的 模型 函数 ， 它 把 所 应 用 的 训练 方法 作为 参数 之 

函数 genericModel(0) 实 现 了 这 种 方法 ， 代 码 如 下 : 





genericModel <- function(form,train,test, 
learner, 
fs.meth, 
ened 
{ 

cat ('="') 

tgt <- as.character(form[[2]]) 

tgtCol <- which(colnames(train)==tgt) 


# Anova filtering 

f <- Anova(train[, tgt] ,p=0.01) 

ff <- filterfun(f) 

genes <- genefilter(t(train[,-tgtCol]),ff) 
genes <- names(genes) [genes] 


train <- train[,c(tgt,genes)] 
test <- test[,c(tgt,genes)] 
tgtCol <- 1 


> 
+ 

+ 

+ 

十 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ 

+ # Specific filtering 
+ if (fs.meth[[1]]=='varclus') { 

+ require (Hmisc, quietly=T) 

+ v <- varclus(as.matrix(train[,-tgtCol])) 

+ VSs <- lapply(1:fs.meth[[3]],function(x) 

+ getVarsSet (v$hclust ,nvars=fs.meth[[2]])) 

+ pred <- varsEnsembles(tgt,train,test,VSs,learner,list(...)) 
+ 
+ } else { 

+ if (fs.meth[[1J]=='rf') { 

+ require (randomForest , quietly=T) 

+ rf <- randomForest (form, train, importance=T) 

+ imp <- importance(rf) 

+ imp <- imp[,ncol(imp)-1] 

+ rf.genes <- names(imp) [order (imp, decreasing=T) [1:fs.meth[[2]]]] 
+ train <- train[,c(tgt,rf.genes)] 

+ test <- test[,c(tgt,rf.genes)] 

+ } 

+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
A 
+ 
+ 
+ 
+ 
+ 
+ 
+ 
+ 


if (learner == 'knn') 
pred <- kNN(form, 
train, 
test, 
norm.stats=list(rowMedians (t (as.matrix(train[,-tgtCol]))), 
rowIQRs(t{as.matrix(trainf{,-tgtCo1])))), 
nial) 
else { 
model <- do.call(learner,c(list (form, train),list(...))) 
pred <- if (learner != 'randomForest') predict (model, test) 
else predict (model, test, type='response' ) 


J} 


c(accuracy=ifelse(pred == resp(form,test),100,0)) 
$ 


在 函数 LOOCV 的 每 一 次 欠 代 中 ， 将 调用 上 面 的 用 户 定 义 函 数 。 在 
微 阵 列 数据 上 完成 所 有 这 些 变 体 的 实验 需要 很 长 一 段 时 间 中。 除非 你 
意识 到 时 间 的 限制 ， 人 否则 这 里 不 建议 你 运行 下 面 的 实验 。 实 验 的 结果 在 





本 书 的 网 站 上 ， 你 可 以 不 用 运行 这 些 实验 而 继续 进行 后 面 的 结果 分 析 。 
运行 实验 的 代码 如 下 : 


require(class, quietly=TRUE) 

require (randomForest , quietly=TRUE) 

require (e1071,quietly=TRUE) 

load ('myALL.Rdata' ) 

es <- exprs(ALLb) 

# simple filtering 

ALLb <- nsFilter(ALLb, 
var. func=IQR, var. cutoff=IQR(as.vector(es))/5, 
feature. exclude="“AFFX") 

ALLb <- ALLb$eset 

# the dataset 

featureNames(ALLb) <- make.names(featureNames (ALLb)) 

dt <- data. frame (t (exprs(ALLb)) , Mut=ALLb$mol . bio) 

DSs <- list(dataset (Mut ~ .,dt,'ALL')) 

# The learners to evaluate 

TODO <- c(‘knn','svm','randomForest') 

for(td in TODO) { 


assign(td, 
experimentalComparison( 
DSs, 
c( 
do.call('variants', 
c(list('genericModel', learner=td), 
vars[{td]], 
varsRootName=td) ) 
) » 
loocvSettings (seed=1234, verbose=F) 
) 
) 
save (list=td, file=paste(td,'Rdata',sep='.')) 


+eeeereretrererereeteVVUVUVVVYVVteteVVV VV Vv 


} 


上 面 的 代码 应 用 函数 experimentalComparison0) 来 测试 应 用 LOOCV 
方法 的 所 有 变 体 。 上 面 代码 用 函数 variants0) 来 生成 变 体 的 所 有 1learner 对 
象 ， 从 前 面 可 知 ， 这 些 变 体 由 参数 vars 给 出 的 列表 元 素 提供 。 每 一 个 变 
体 由 一 个 LOOCV 过 程 来 评估 。 上 面 代码 的 结果 是 3 个 compExp 对 象 ， 它 


们 分 别 命名 为 knn、svm 和 randomForest。 这 些 结果 对 象 包含 相应 训练 方 
法 变 体 的 结果 ， 所 有 这 些 变 体 的 结果 存储 在 以 训练 方法 名 为 文件 名 ， 
以 “.Rdata” 为 后 级 的 文件 中 。 在 本 书 的 网 站 中 有 这 些 结果 文件 。 因 此 ， 
你 如 果 没 有 运行 上 面 的 实验 ， 你 可 以 下 载 这 些 文件 到 你 的 本 地 计算 机 
中 ， 然 后 用 函数 load0 《以 相应 文件 的 名 称 为 参数 ) 来 载 入 R 软 件 : 

> load("knn.Rdata") 


> load("svm.Rdata") 
> load("“randomForest .Rdata") 





一 个 训练 方法 的 所 有 变 体 的 结果 保存 在 相应 的 对 象 中 。 例 如 ， 如 果 
要 检查 哪 一 个 文 持 疝 量 机 变 体 最 好 ， 可 以 用 下 列 命令 : 





> rankSystems(svm, max = T) 


$ALL 
$ALL$accuracy 
system score 


1 svm.v2 86.17021 
2 svm.v3 86.17021 
3 svm.v5 86.17021 
4 svm.v6 86.17021 
5 svm.v9 86.17021 





函数 rankSystems0 用 一 个 类 compExp 对 象 为 参数 ， 获 得 实验 过 程 中 
所 估计 的 每 一 个 评估 指标 的 最 好 变 体 。 在 默认 情况 下 ， 该 函数 假设 最 小 
值 意味 着 “最 好 ”。 如 果 最 大 值 意味 着 “最 好 ”， 例 如 正确 率 ， 则 可 以 如 上 











所 示 应 用 参数 max 2 。 为 了 得 到 所 有 实验 的 总 体 情 况 ， 可 以 用 下 面 代 码 
把 3 个 结果 对 象 结合 在 一 起 : 


> all.trials <- join(svm, knn, randomForest, by = "variants") 





通过 结合 在 一 起 的 compExp 对 象 ， 可 以 检查 我 们 实验 中 总 体 最 好 的 
DBL: 


> rankSystems(all.trials, top = 10, max = T) 


$ALL 
$ALL$accuracy 
system score 
knn.v2 88.29787 
knn.v3 87.23404 
randomForest .v4 87.23404 
randomForest.v6 87.23404 
svm.v2 86.17021 
svm.v3 86.17021 
svm.v5 86.17021 
svm.v6 86.17021 
svm.v9 86.17021 
svm.v23 86.17021 


OCOOAN OO PWD & 


上 
心 


获得 最 高 分 数 的 是 k 近 邻 方 法 的 一 个 变 体 。 下 面 查 看 该 变 体 的 特 


> getVariant("knn.v2", all.trials) 
Learner:: "genericModel" 


Parameter values 


learner = "knn" 

k = § 

norm = TRUE 

fs.meth = list("rf", 30) 


该 变 体 应 用 随机 森林 过 滤 出 的 30 个 基因 、5 个 近邻 ， 并 对 基因 表达 
水 平 进行 标准 化 。 有 趣 的 是 ， 在 最 高 的 10 个 分 值 中 ， 只 有 最 后 一 个 
(“svm.v23”) 的 30 个 基因 不 是 应 用 随机 森林 过 滤 得 到 的 。 这 第 10 位 最 
好 的 模型 应 用 ANOVA 过 滤 出 的 所 有 基因 。 注 意 ， 这 10 个 模型 的 正确 率 
分 值 很 相似 。 事 实 上 ， 考 虑 到 我 们 有 94 个 测试 样本 ， 最 好 模型 的 正确 率 
意味 着 有 11 个 样本 分 类 错误 ， 而 第 10 位 最 好 的 模型 有 13 个 错误 。 





也 许 需 要 知道 模型 (例如 ， 最 好 的 模型 〉》 犯 了 哪 种 类 型 的 错误 。 混 
清和 矩阵 提供 了 这 种 类 型 的 信息 。 为 了 得 到 混 清 窍 阵 ， 需 要 知道 模型 预测 
值 对 应 的 真实 值 。 我 们 的 用 户 定 义 函 数 没有 输出 预测 值 ， 它 只 给 出 了 决 
傈 正确 率 。 因 此 ，compExp 对 象 没有 这 种 信息 。 如 末 我 们 需要 这 种 额外 
的 信息 ， 在 实验 过 程 的 每 一 次 过 代 中 ， 在 计算 评估 指标 的 顶部， 可 以 使 
用 户 定 义 函 数 返 回 这 些 信息 并 赋 给 实验 比较 过 程 。 如 第 4 章 所 示 ， 这 里 
用 于 接收 和 存储 这 些 额 外 信息 。 设 想 我 们 需要 知道 最 好 的 模型 在 
LOOCV 过 程 的 每 一 次 达 代 中 的 预测 值 。 下 面 的 代码 让 我 们 获取 这 些 信 
恩 。 下 和 面 的 代码 着 重 于 最 好 的 模型 ， 当 然 可 以 简单 地 修改 使 它 可 以 应 用 














于 其 他 模型 。 


bestknn.loocv <- function(form,train,test,...) { 
require (Biobase, quietly=T) 
require (randomForest , quietly=T) 
cat (‘=') 
tgt <- as.character(form[[2]]) 
tgtCol <- which(colnames(train)==tgt) 
# Anova filtering 
f <- Anova(train[,tgt] ,p=0.01) 
ff <- filterfun(f) 
genes <- genefilter(t(train[,-tgtCol]),ff) 
genes <- names(genes) [genes] 
train <- train[,c(tgt,genes)] 


> 

+ 

+ 

= 5 

+ 

+ 

+ 

+ 

+ 

+ 

$ 

+ 

+ test <- test[,c(tgt,genes)] 

+ tgtCol <- 1 

+ # Random Forest filtering 

+ rf <- randomForest (form, train, importance=T) 

+ imp <- importance(rf) 

+ imp <- imp[,ncol(imp)-1] 

+ rf.genes <- names (imp) [order (imp, decreasing=T) [1:30]] 
+ train <- train[,c(tgt,rf.genes)] 

+ test <- test[,c(tgt,rf.genes)] 

+ # knn prediction 

+ ps <- kKNN(forn,train,test,norm=T, 

+ norm.stats=list(rowMedians(t(as.matrix(train[,-tgtCol]))), 
+ rowIQRs(t(as.matrix(train{[,-tgtCol])))), 
+ k=5,...) 

+ structure(c(accuracy=ifelse(ps == resp(form,test),100,0)), 
+ itInfo=list (ps) 

+ ) 

Hep 

> resTop <- loocv(learner('bestknn.loocv',pars=list()), 

+ dataset (Mut ~. ,dt), 

+ loocvSettings (seed=1234, verbose=F), 

+ itsInfo=T) 


PK 2bestknn.loocv()3E br E zÆ HW $e Ae HY eK BL genericModel() H4 
例 ， 它 设 定 5 个 近邻 ， 应 用 随机 和 森林 过 滤 法 ， 应 用 中 位 数 和 四 分 位 距 来 
进行 标准 化 。 除 了 它 的 返回 结果 部 分 以 外 ， 大 部 分 的 代码 和 函数 





genericModel() 一 样 。 这 个 新 函数 不 是 返回 模型 的 正确 率 ， 它 返回 一 
结构 。 如 之 前 描述 的 那样 ， 结 构 是 一 种 有 附加 属性 的 R 对 象 。 函 数 
structure() 可 以 通过 附加 一 组 属性 来 创建 这 种 “丰富 * 的 对 象 。 在 我 们 的 用 
户 定义 函数 中 ， 如 果 我 们 需要 为 函数 loocv0 返 回 一 些 额 外 信息 ， 我 们 就 
应 该 在 一 个 名 为 itsInfo 的 属性 中 完成 。 在 上 面 的 函数 中 ， 我 们 应 用 这 个 
属性 返回 模型 的 预测 值 。 在 函数 loocv0 中 存储 实验 过 程 的 每 一 次 迭代 给 
出 的 这 个 信息 。 为 了 让 函数 loocv0) 保 存 这 些 信息 ， 需 要 应 用 可 选 参 数 
itsInfo=T 来 调用 函数 loocv()。 这 可 以 确保 用 户 自 定义 函数 返回 的 任何 内 
容 可 以 作为 一 个 名 为 itsInfo 的 属性 ， 该 属性 将 收集 在 一 个 列表 中 ， 并 作 
为 函数 loocv0) 的 结果 中 名 为 itsInfo 的 属性 返回 。 最 后 ， 我 们 可 以 检查 这 

一 信息 ， 即 检查 每 一 次 迭代 中 最 好 模型 的 预测 值 。 





为 了 检查 包含 我 们 所 需要 信息 的 属性 内 容 ， 可 以 应 用 如 下 代码 (下 
面 只 显示 了 开始 的 4 个 预测 值 ): 


> attr(resTop, "itsInfo") [1:4] 


[[1]] 
[1] BCR/ABL 
Levels: ALL1/AF4 BCR/ABL E2A/PBX1 NEG 


[[2]] 
[1] NEG 
Levels: ALL1/AF4 BCR/ABL E2A/PBX1i NEG 


[[3]] 
[1] BCR/ABL 
Levels: ALL1/AF4 BCR/ABL E2A/PBX1 NEG 


[[4]] 
[1] ALL1/AF4 
Levels: ALLi/AF4 BCR/ABL E2A/PBX1 NEG 


应 用 函数 attr0 可 以 获取 一 个 R 对 象 的 任何 属性 值 。 我 们 知道 ， 属 性 
itsInfo 含 有 LOOCV 过 程 每 次 迭代 的 预测 值 。 应 用 这 些 信息 和 数据 集 的 真 
实 值 ， 可 以 得 到 混 消 和 矩阵 ， 代 码 如 下 : 








> preds <- unlist(attr(resTop, “itsInfo")) 
> table(preds, dt$Mut) 


preds ALL1/AF4 BCR/ABL E2A/PBX1 NEG 
ALL1/AF4 10 0 0 O 
BCR/ABL 0 33 0 4 
E2A/PBX1i 0 0 号 1 
NEG 0 2 2 37 
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测 了 所 有 的 突变 类 型 为 ALL1AF4 的 样本 。 同 时 ， 我 们 观测 到 模型 所 犯 
的 大 部 分 错误 是 把 一 个 具有 某 些 突变 的 个 案 预测 为 类 NEG。 然 而 ， 模 型 
也 把 5 个 没有 突变 的 样本 错误 地 预测 为 有 某 些 异常 。 





[1] 在 我 的 标准 配置 的 桌面 计算 机 上 ， 运 行 以 上 代码 大 约 需要 3 天 。 
[2] 如 果 我 们 有 多 个 评估 指标 ， 有 些 指标 需要 最 小 化 ， 其 他 需要 最 大 
化 。 可 以 设置 参数 max 为 布尔 值 向 量 。 


5.5 ”小 结 





本 章 的 主要 目的 是 介绍 R 社 区 十 分 关注 的 数据 挖掘 领域 : 生物 信息 
学 中 的 一 系列 应 用 。 这 里 探索 了 Bioconductor 项 目的 一 些 工 具 ， 该 项 目 
提供 了 专用 于 生物 信息 学 中 应 用 问题 的 大 量 R 添 加 包 。 作 为 一 个 具体 的 
例子 ， 我 们 着 重 于 生物 信息 学 预测 任务 :预测 与 患 有 急性 淋巴 细胞 白 血 
病 的 病人 样本 相关 的 基因 突变 类 型 。 基 于 从 微 阵 列 实 验 得 到 的 一 组 基因 
的 表达 水 平 信息 ， 建 立 了 多 个 分 类 模型 。 就 数据 挖掘 概念 而 言 ， 本 章 着 
重 于 下 列 主题 : 








:有 大 量 预 测 变 量 问 题 的 特征 选择 方法 。 


:分 类 方法 。 


随机 森林 。 


近邻 方法 。 


` 文 持 问 量 机 。 


用 不 同 的 预测 变量 集合 进行 组 合 。 


弃 一 交叉 验证 法 。 


对 于 R 而 言 ， 我 们 学 习 了 几 种 新 的 技术 : 


:如何 处 理 微 阵列 数据 。 


.应 用 ANOVA 检 验 比 较 几 组 数据 的 均值 。 


-在 分 类 问题 中 用 随机 森林 来 选择 变量 。 


获得 用 不 同 预测 变量 建立 的 模型 的 组 合 。 


:获得 k 近 令 模 型 。 


:用 弃 一 交 义 验证 法 估计 模型 的 精度 。 
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